Khóa luận tốt nghiệp Công nghệ thông tin: Nhận dạng thực thể có tên dựa trên mô hình ngôn ngữ lớn

Các mô hình này đã được huấn luyện với lượng đữ liệukhống 16 làm tăng kha năng hiểu cách biểu diễn từ và ngữ cảnh, từ đó dé dàng nhậndiện thực thể có tên trong văn bản.. e Thử nghiệm hướ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN VIET ANH

KHOA LUAN TOT NGHIEP

HÌNH NGON NGU LON

Named entity recognition based on large language models

CU NHAN NGANH CONG NGHE THONG TIN

TP HO CHÍ MINH, 2024

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN VIỆT ANH - 19521204

KHÓA LUẬN TÓT NGHIỆP

NHAN DẠNG THUC THẺ CÓ TÊN DỰA TREN MÔ

HÌNH NGÔN NGỮ LỚN

Named entity recognition based on large language models

CU NHAN NGANH CONG NGHE THONG TIN

GIANG VIEN HUONG DAN

PGS.TS NGUYEN LUU THUY NGAN

ThS DANG VAN THIN

TP HO CHÍ MINH, 2024

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số TI8ẦY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Với tất cả lòng kính trọng và biết ơn, sinh viên gửi lời tri ân đến người Thầy đãhướng dẫn sinh viên trong quá trình thực hiện Khóa luận tốt nghiệp này: ThầyĐặng Văn Thìn, đến từ Phong Thí nghiệm Truyền thông Da phương tiện (PTNTTĐPT) đã đồng hành với sinh viên trong quá trình thực hiện khóa luận; Cô

Nguyễn Lưu Thùy Ngân, Phó Giáo sư — Tiến sĩ tại Đại hoc Công nghệ thông tin,

đã truyền cảm hứng và hỗ trợ sinh viên trong các nghiên cứu về nhận diện thựcthé có tên; và tất cả các Thầy Cô đã giúp đỡ sinh viên trong suốt quá trình học tập

và làm việc tại Trường Đại học Công nghệ Thông tin.

Bên cạnh đó, sinh viên gửi lời cảm ơn đặc biệt đến khoa Khoa học và Kỹ thuậtThông tin, và PTN TTĐPT đã tạo điều kiện và cung cấp một môi trường làm việc

phù hợp để sinh viên thực hiện đề tài này

Sinh viên cũng không quên gửi lời cảm ơn đến bạn bè, đặc biệt là các bạn sinhviên mà sinh viên có cơ hội gặp gỡ và làm việc tại PTN TTĐPT, cũng như tất cả

mọi người, dù cách này hay cách khác, đã đồng hành với sinh viên trong suốt

quãng thời gian vừa qua.

Cuôi cùng, sinh viên xin gửi lời cảm ơn đên gia đình, đã nuôi dưỡng và luôn luôn ủng hộ sinh viên băng tình yêu thương đê sinh viên trưởng thành và phát triên trên con đường mà sinh viên đã chọn, cụ thê hóa băng luận văn mà sinh viên đã hoàn thành hôm nay.

Sinh viên

Nguyễn Việt Anh

Trang 5

MỤC LỤC

Chương 1 TONG QUAN - 2-52 SE E2 2E12112112112112112112112111121 111 te 3

1.1 - Giới thiệu để tài 25: 5c 21 2 22221 2112212712121 errrree 3

1.1.1 - Đặt vẫn đề c 2k 2t H222 ke 31.1.2 Cac công trình liên quañ - + Sc + Sxk*ESEESSkErkrrsrrsrerxee 5

1.1.2.1 Công trình nước ngoOàải - - 52c St Ssskrsrrrrrerrrrrrke 5 1.1.2.2 Công trình trong nue + Sc S+S*+sissrererreree 6 1.1.3 Mục tiêu nghiên CỨU - c1 2c 1221112111 1111 11181118111 rệt 71.1.4 Phạm vi, đối tượng nghiên Cứu 2 s+2+£+Ez+£x+£E++Exerxerreerxees 71.2 Cu trúc khóa luận tốt nghiệp - 2-2 2 £+EE+E2E+E2EE2ErErrervee 12Chương 2 KIÊN THỨC NÊN TẢNG -2-©22+2<+2E+2E2EE+EECEEEerkerkerrkerxee 13

2.1 Xử lý ngôn ngữ tự nhiÊn c2 3211121113 1191511511 Eerkre 13

2.1.1 Khái ni m.ưac ve ớ Í 4 13

2.1.2 Cacia toan,., ST đ€Ố“ 14

2.1.3 Ung dụng Ă 5 ST HE HH 1212111 ray 15

2.2 Nhận dạng thực thé CO tÊN is tt E1 E911 E151115151111517111111151Ee1xEcE 16

2.2.1 Khái niệm 2: 5c 22221221 2122122121122 11c rcrk 16 2.2.2 Các kỹ thudt occ eeccccccccsccssessessessesssessessessessessssssessessuessessesssesseeseeeseess 18

2.2.3 Ứng durngeeeccecccccceccsccccsssssessessesssessessssssessesssessessusssessesssessessnsasessesasesseess 20

Chương 3 _ PHƯƠNG PHAP, KET QUA VÀ ĐÁNH GIA - 23

3.1 Mô hình BERT 2: 5¿+2<+EES2E2E12212112717121121111121111 21 Ecxe 24

3.1.1 Tổng quan -5E2E+2EEEEE2E1271211221271211211 2121 re 243.1.2 Thiết lập c- tt TT E1 11211 2112112112101 re 263.1.3 Kết quả, đánh giá c-Ss TT E212, 27

Trang 6

3.1.3.1 BO PhoNER_COVIDI9 cấp độ tiếng - 2 2©cz+cz2cce: 273.1.3.2 BO PhoNER_COVIDI9 cấp độ từ ©22- cccccsrxsrxerres 30

3.2 Mô hình ngôn ngữ lớn ¿- 2¿+¿+2++2EE+2EE+EEEE2EE22E227122712221 222 zrxe+ 32

3.2.1 Tổng quan - k+Eke kề EEEE1E1121121121121111121121121 211 c0 323.2.2 Thiết lập 2k 2k2 2 112212211211211211211 1.1 re 333.2.3 Kết quả đánh giá c-csc TETE E1121121121121211 1e 383.3 Split-NER 22H HH H122 errerre Al

3.3.1 Tổng quan oeccecceccecccccssessessessessessessessessessessessessessessessessessessssssaseaeaseavens 413.3.2 Thiết ap veccecceccececcccccscescesecsessessessessessessessessessessessessessessesssssssseaeseeasees 42

6.1 Kết Quan occ ceccccecccccesssssessssessecssesssesssessusssssssusssesssesssecsuessuessussssessesesesssecsses 61

6.2 Hạn chế 22.2 t2 111111215111151111111111111111111111111111 E11 xe 62

Trang 7

DANH MỤC HÌNH

Hình 1 Ví dụ về bộ dữ liệu PhoNER_COVID10 2 2¿22++2x+£xz+zxezxzrxrrxee 11 Hình 2 Một vi du về cuộc trò chuyện với ELIZA - - ¿+ +c+*+sseessereeeres 13 Hình 3 So sánh cau trúc mô hình BERT của Google AI . -z- s52 24 Hình 4 Sơ đồ mô hình BERT cho NER 2: 2¿©<2x+2££2EE+£E++EzExezxzzzxerxee 25 Hình 5 mô phỏng đầu vào của mô hình BERT [25] - 2 2 z+sz+sz+sz+s++2 27 Hình 6 Kết quả F1-micro, F1-macro va mat mát của giai đoạn phát triển với mỗi

epoch trên cấp độ tiẾng -:- 2 2 ©£+SE9EE2E12E12E12E1211211221211211211211211211 21.1 xe, 27 Hình 7 Biéu diễn sự mat mát của mô hình PhoBERT-large trong huấn luyện va

đánh giá qua từng ©pOCHh «+ + x11 vn HH Hà Hà Hà Hà HH HT TT 29 Hình 8 Kết quả Fl-micro, F1-macro và mat mát của giai đoạn phát triển với mỗi

epoch trên cấp độ tỪ -¿- s52 cc 2121111111112112112112 1211211211111 211 111.11 30

Hình 9 Ví dụ về lỗi có thé xảy ra trong quá trình mã hóa .: 5¿ 5255522 35 Hình 10 Sơ đồ minh hoa các module -:+¿+22v+++trEtxvrrrrrrrerrrrrrrkrrrree 36

Hình 11 Mô phỏng ba giai đoạn trong cuộc thi học thuật SOMD 2024 [35] 42

Hình 12 Mô phỏng hệ thống Split-NER cho bài toán PhoNER_COVIDI9 43

Hình 13 Bảng giải thích các nhãn lỗi - 5:52 S2 SE+E£E£E‡E£E2EeEerxrxerrxzrrrs 48 Hình 14 Thống kê lỗi của mô hình XLM-R-base trên bộ dữ liệu tiếng ¬ 49 Hình 15 Thống kê lỗi trên mô hình Bloomz-7b với bộ dit liệu tiếng 52

Hình 16 Bang thống kê nhãn lỗi của XLM-R trên bộ dit liệu từ . - 54

Hình 17 Thống kê nhãn lỗi của mô hình Bloomz-7b trên bộ dữ liệu từ 54

Hình 18 Thống kê lỗi của XLM-R-base của giai đoạn 1 trên bộ dit liệu tiéng 55

Hình 19 Thống kê lỗi của giai đoạn hai trên bộ dữ liệu tiếng - 56 Hình 20 Thống kê lỗi của giai đoạn hai trên bộ dữ liệu từ -. 2-2-2: 56

Hình 21 Hình ảnh giao diện của Ứng dụng - cty 58 Hình 22 Tao Space với IÖOCK€T - ¿2 22c 33211831119 E851 Exre 59 Hình 23 Giao diện ứng dụng trên huggingface Space ¿5c sScssssssrssxes 60

Trang 8

DANH MỤC BANG

Bang 1-1 Hướng dẫn gan nhãn . 2-2-2 £+E9SE+E££E£EE£E£EEEEEEEEEEEEEEEEEEEErkerkrei 8Bang 1-2 Thống kê nhãn trong bộ dit liệu PhoNER_COVIDI9 . -2¿ 9Bảng 2-1 Ví dụ về định dang CoNLLL - 2-2: ©222S£+2E£2EE£2EE£2EE£2EEzzxrzrxerrree 17Bang 3-1 Bảng kết quả mô hình XLM-R của sinh viên và tác giả bộ dit liệu

'0)15)00969409ãE5077577 28

Bang 3-2 Kết quả F1 của các biến thể BERT trên tập test của cấp độ tiếng 28Bảng 3-3 Kết quả PhoBERT của sinh viên và của tác giả PhoNERCOVIDI9 [31]30Bảng 3-4 Kết quả của các biến thé BERT trên bộ dit liệu từ -:- 31Bảng 3-5 Lời nhắc cho tác vụ nhận điện thực thé cho bộ PhoNER_COVID19 33Bang 3-6 Các thiết lập LORA - 2-52 Sc S129 12 12E121121121121121121121121111 21.111 37

Bảng 3-7 Thiết lập siêu tham $6 cc ccccsssessssssessesssesseessessecsesssessesssessessecssessecsseaseeees 37

Bảng 3-8 So sánh sơ bộ các mô hình ngôn ngữ lớn trong khóa luận tốt nghiệp .38Bảng 3-9 Kết quả của mô hình mô hình ngôn ngữ lớn trên bộ tiếng - 39Bảng 3-10 Kết quả của các mô hình ngôn ngữ lớn trên bộ từ . . - 40Bang 3-11 Kết quả phát hiện thực thê - 2: 2-52 8+S£2EE2EE2EE2EE2EE2EE2EEzEErrerreee 44Bảng 3-12 Kết quả zero shot của Bloomz 7b] trên bộ dit liệu tiếng - 44 Bảng 3-13 Kết quả zero shot của mô hình Bloomz-7b1 trên bộ dữ liệu từ 45Bảng 3-14 Kết quả cả hai giai đoạn trên bộ dit liệu tiếng -2- 2-2 25z+s+ 46Bang 3-15 Kết quả của hai giai đoạn với bộ dit liệu từ ¿2 z+5zccc: 47

Bảng 4-1 Ví dụ sự lỗi vị trí của mô hình XLM-R-base trong dự đoán LOC 49

Bang 4-2 Nhằm lẫn nhãn LOC và ORG của XLM-R-base trên bộ đữ liệu tiếng 50Bang 4-3 Nhằm lẫn giữa các thực thể AGE, PAT và DA TE -. :- 552 51 Bảng 4-4 Ví dụ lỗi Sai vị trí của mô hình Bloomz-7b trên bộ dữ liệu tiếng 52

Bảng 4-5 Ví dụ các mã lỗi sai vị tri của SYM với mô hình Bloomz 53

Bang 4-6 Một số ví dụ bị bỏ lỡ ¿- ¿525222 EE2E12E121121121121121121121 11.11 1ee 55Bang 4-7 Mot số ví dụ về dự đoán nhằm lẫn nhãn . -¿- - 2+2 +EE+E+EeExzEezs 57

Trang 9

DANH MỤC TU VIET TAT

Từ viết tắt | Tiếng Anh Nghĩa tiếng Việt

NER Named-Entity Recognition Nhận dạng thực thê có tên

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

BERT Bidirectional Encoder Biéu diễn thé hiện mã hóa hai

Representations from Transformers | chiều từ Transformer

GPT Generative Pre-trained Transformers | Transformer tạo sinh đã huấn

luyện LLM Large Language Models Mô hình ngôn ngữ lon

LoRA Low-Rank Adaptation

QLoRA Quantized Low-Ranking Adaptation

PEFT Parameter Efficient Fine Tuning Tinh chỉnh thông số hiệu quaHMM Hidden Markov Model Mô hình Markov ân

CRF Conditional Random Fields Trường ngẫu nhiên có điều

kiệnRNN Recurrent Neural Network Mang nơ-ron hồi quy

CNN Convolutional Neural Network Mang no-ron tich chap

POS Part-of-Speech Từ loại

mBERT Bert-base-multilingual-cased Mô hình mBERT

XLM-R XLM-RoBERTa Mô hình XLM-R

MTF Multitask Prompted Finetuning

CONLL Conference on Natural Language

Learning

Trang 10

POS Part-of-Speech Tagging Phân tích từ loại

SA Sentiment Analysis Phan tich tinh cam

MLP Multilayer Perceptron mang no ron nhân tạo

Trang 11

TÓM TẮT KHÓA LUẬN

Nhận diện thực thé có tên (NER) là một nhiệm vụ rất quan trọng trong lĩnh vực xử lýngôn ngữ tự nhiên (NLP) Mục tiêu của NER là xác định và phân loại các thực thể cótên (tên người, địa điểm, tổ chức, thời gian, số lượng, ) trong văn bản để hỗ trợ cácnhiệm vụ khác Ví dụ, trong câu "Nguyễn Việt Anh sinh ra ở TP Hồ Chí Minh, ViệtNam", NER sẽ xác định "Nguyễn Việt Anh" là tên người, "TP Hồ Chí Minh" là địađiểm và "Việt Nam" là địa điểm

Nghiên cứu nhiệm vụ NER gần đây đã có nhiều tiến bộ vượt trội nhờ các mô hìnhBiểu diễn thể hiện mã hóa hai chiều từ Transformer (BERT) hay Transformer tạosinh đã huấn luyện (GPT) Các mô hình này đã được huấn luyện với lượng đữ liệukhống 16 làm tăng kha năng hiểu cách biểu diễn từ và ngữ cảnh, từ đó dé dàng nhậndiện thực thể có tên trong văn bản

Bên cạnh có những tiến bộ, vẫn còn những khó khăn và thách thức trong nhiệm vụnhận diện thực thể như ngữ nghĩa mơ hồ hay sự phức tạp của thực thể Ví dụ nhưtrong thực thé tổ chức (ORGANIZATION) "Đại học Quốc gia Hà Nội" có chứa thựcthé địa điểm (LOCATION) "Hà Nội " Hay một số thực thể có ranh giới không rõràng như trong câu "Tôi thích ăn phở cuốn ở quán gan nhà", ở đây không rõ "quángần nhà" là một thực thé địa điểm hay chỉ là một cách diễn đạt chung chung Đặc biệtnhất vẫn là thiếu dữ liệu có nhãn Đối với các ngôn ngữ ít phổ biến, việc xây dựng

tập dir liệu chất lượng cao cho NER là một quá trình tốn kém và mất thời gian, đòi

hỏi có sự tham gia của các chuyên gia ngôn ngữ hoặc các chuyên gia trong các lĩnh

vực.

Trong đề tài này tập chung vào nghiên cứu phương pháp sử dụng mô hình ngôn ngữlớn để giải quyết bài toán NER Hơn nữa, khóa luận cũng đề xuất hướng giải quyếttrong trường hợp đặc thù ít dé liệu huấn luyện của nhiệm vụ NER Cụ thé, đóng góp

của khóa luận này như sau:

e Nghiên cứu, đề xuất mô hình BERT hay các biến thé của mô hình BERT cho

các bài toán NER.

Trang 12

e Nghiên cứu, đề xuất mô hình ngôn ngữ lớn cho các bài toán NER bằng cách

điều chỉnh lời nhắc (Prompt) và fine-tuning mô hình ngôn ngữ lớn với kỹ thuật

Low-Rank Adaptation (LoRA), Quantized Low-Ranking Adaptation(QLoRA) va Parameter Efficient Fine Tuning (PEFT) để tiếp cận mô hìnhngôn ngữ lớn với nguồn tài nguyên thấp

e Thử nghiệm hướng tiếp cận phương pháp Split-NER cho các bài toán NER

nhằm đơn giản hóa nhiệm vụ NER bằng cách chia bài toán thành hai giai đoạnđộc lập gồm: Xác định vị trí thực thể và phân loại thực thể dựa trên mô hìnhngôn ngữ lớn với phương pháp zero shot từ đó tối ưu thời gian huấn luyện các

mô hình.

Sinh viên tiến hành thực nghiệm đánh giá độ chính xác bằng thang đo F1 trên tập ditliệu PhoNER_COVIDI9.

Trang 13

Chương 1 TONG QUAN

1.1 Giới thiệu đề tài

Trong kỷ nguyên thông tin bùng nỗ, dữ liệu văn ban trở thành một kho tang vô giá,

chứa đựng những hiểu biết sâu sắc về thế giới xung quanh Tuy nhiên, phần lớn dữliệu này tồn tại dưới dạng phi cấu trúc, gây khó khăn cho việc phân tích và khai thác

triệt dé, đây chính là lúc nhiệm vụ NER thé hiện vai trò quan trọng của mình NER

là một nhánh của lĩnh vực NLP, tập trung vào việc xác định và phân loại các thực thể

có tên trong văn bản Các thực thé này có thể là tên người, địa danh, tổ chức, ngàytháng, sản phẩm, hoặc bat kỳ khái niệm nao có ý nghĩa cụ thể.

Ví dụ về bài toán NER:

Đầu vào: “Emily lives in United States”

Đầu ra: “B-PERSON O O B-LOCATION I-LOCATION”

Trong ví dụ trên, ta có thể thấy, NER giúp chúng ta nhận biết được Emily là tênngười (PERSON) và “United States” được gan là địa điểm (LOCATION) Các nhiệm

vu NER thường được sử dụng các cấu trúc khác nhau nhằm bổ xung thông tin, mốiquan hệ của từng từ trong thực thé Như “United” là ‘B-LOCATION?” thé hiện đây làbắt đầu (Begin hay B) của nhãn địa điểm và “States” là từ bên trong thực thé (Insidehay I), các từ còn lại gan nhãn “O” là bên ngoài thực thé (Outside) nghĩa là khôngthuộc trong nhóm thực thê liên quan Ngoài ra còn có các nhãn khác như “E” (End)chỉ kết thúc thực thé, “S” (Single) chỉ thực thể don, Tùy vào độ phức tạp của thực

thé mà có sự phân chia nhãn cụ thé hơn nhằm biểu thị rõ mối quan hệ của từ trong

thực thé, hay mối quan hệ của thực thé trong béi canh do.

Trang 14

Vấn đề đầu tiên nhất của NER là sự mơ hồ của các thực thể Sự mơ hồ của thực thể

bị ảnh hưởng bởi ngữ cảnh của nó trong đoạn văn Ví dụ, “Apple” có thể hiểu đó làtên một công ty hoặc đó là tên của loài trái cây dựa vào ngữ cảnh mà nó được đề cậptrong văn bản Tiếp đến, sự mơ hồ của thực thể còn là sự khó khăn trong việc xácđịnh chính xác ranh giới thực thé, đặc biệt là với các thực thé phức tạp như địa chỉhoặc tên tổ chức Như trong câu “Tôi thích quán ăn gần nhà tôi” và cụm từ “gần nhàtôi” liệu đó là nói đến quán ăn có địa điểm gần nhà hay là cách nói chung chung nhằmthê hiện sự thích thú với các quán ăn gân nhà.

Van đề thứ hai khi đối mặt với bài toán NER là sự đa dạng và biến đổi của ngônngữ Thường gặp nhất là biến thé về chính tả, các tên riêng, tên địa danh hay tên tổ

chức thường có nhiều cách viết khác nhau như tên đầy đủ, tên viết tắt, tên gọi cũ, biệt

danh hay là các lỗi chính tả trong khi nhập liệu Ví dụ như “Thành phô Hồ Chi Minh”,trong nhiều trường hợp nó được viết tắt thành “TP Hồ Chí Minh” hay “TP HCM”hay gọi ngắn gọn là “Hồ Chí Minh”, “HCM”; bên cạnh đó còn có tên gọi cũ như ““SàiGòn” Nhất là trong các bình luận trên mạng xã hội nói riêng hay các văn bản khôngchính thống nói riêng, việc sử dụng tiếng lóng, từ viết tắt và các từ mới xuất hiệnkhiến cho việc nhận dạng thực thể trở lên khó khăn hơn Ngoài ra, còn ảnh hưởng bởimiền dữ liệu như từ “BA” là từ viết tắt phô biến của từ “Business Analyst”, tuy nhiên

nó còn thê hiện các từ khác như “Bachelor of Arts” đề cập tới học vị nghề nghiệp hay

“British Airways” tên một hãng máy bay của Mỹ,

Van đề thứ ba là việc thiếu dữ liệu huấn luyện chất lượng cao làm hạn chế hiệu suấtcủa các mô hình NER, đặc biệt với các miền hẹp, các ngôn ngữ ít phổ biến hoặc liênquan tới van đề về quyền riêng tư Dé tạo ra các bộ dữ liệu huấn luyện chất lượng caođòi hỏi rất nhiều công sức và thời gian, không những vậy mà yêu cầu có chuyên gia

có chuyên môn trong lĩnh vực đó như y tế, luật pháp, Để có thể tạo ra bộ dữ liệulớn, còn yêu cầu cần nhiều chi phí dé thuê người gan nhãn, nhưng vẫn phải đảm bảotính nhất quán trong việc gan nhãn, tránh nhằm lẫn

Trang 15

Van đê thứ tư là vân dé vê hiệu suat của mô hình Việc cân băng hiệu suat g1ữa toc

độ và độ chính xác của mô hình cũng là điêu đáng quan tâm Khi mà các mô hình có

độ chính xác cao thì lại hạn chê vê mặt tôc độ, ngược lại các mô hình có độ chính xácchưa cao bằng thì lại mang tốc độ huấn luyện nhanh

1.1.2 Các công trình liên quan

1.1.2.1 Công trình nước ngoài

Vào năm 2018, dé giải quyết sự đa nghĩa của từ trong các bài toán, Peters và cộng sự

đã đề xuất sử dụng mô hình Embeddings from Language Models [1] (Elmo) Mô hìnhnay là một mô hình nhúng từ ngữ mạnh mẽ hơn phương pháp nhúng từ truyền thống

(như Word2Vec hay GloVe) Vì Elmo tạo ra vector dựa trên ngữ cảnh trong câu mà

từ đó xuất hiện Cấu trúc Elmo được xây dựng trên kiến trúc BiLSTM, nhằm tìm ramối quan hệ của từ thông qua hai lớp LSTM Tác giả Siniosoglou sử dụng CRF, Elmo

và LSTM trong việc nhận diện thực thé nâng cao dé bảo vệ quyền riêng tư và thayrằng Elmo và LSTM đạt hiệu quả cao hon so với CRF [2] Một số nghiên cứu khác

sử dụng phương pháp học máy mới dé liên kết thực thé với Wikipedia [3] [4], sửdụng các đặc trưng ngữ cảnh đa dạng và một mô hình phân loại để xác định thực thểWikipedia phù hợp nhất cho một cum từ dé cập trong văn bản Mặc dù mang lại hiệusuất vượt trội hơn các phương pháp trước đó trên các bộ dữ liệu chuẩn nhờ vào khả

năng khái quát hóa của Wikipedia Nhưng phương pháp nay quá phụ thuộc vào

Wikipedia, khi mà liên kết thực thể với nguồn tri thức khác rất khó khăn hay các ngônngữ không có nguồn Wikipedia phong phú, đa dạng Năm 2009, Ratinov và Rothcũng đã sử dụng nguồn tri thức bên ngoài dé giải quyết sự mơ hồ của thực thé [5].Việc tận dụng các cơ sở tri thức bên ngoài (như Wikipedia, các co sở dir liệu báchkhoa, hoặc các tài nguyên ngôn ngữ khác) cung cấp một lượng lớn thông tin có thểgiúp hệ thống NER giải quyết sự mơ hồ Những cơ sở dit liệu này cung cấp bối cảnh

bổ sung và thông tin chỉ tiết giúp hệ thống xác định chính xác các thực thê Tiếp theo

đó, Hoffart và cộng sự đã đề xuất đồ thị ngữ nghĩa nhăm giải quyết sự mơ hồ của ngữnghĩa [6] Phương pháp này không chỉ giải quyết mà còn hạn chế sự mơ hồ băng cách

Trang 16

sử dụng một lượng lớn thông tin ngữ cảnh và các liên kết giữa các thực thể Đồ thịngữ nghĩa giúp hệ thống có cái nhìn toàn diện về mối quan hệ giữa các thực thé, từ

đó giảm thiểu khả năng nhằm lẫn Tuy nhiên dé xây dựng và duy trì đồ thị ngữ nghĩađòi hỏi tài nguyên tính toán lớn, đặc biệt trong khi xử lý văn bản ở mức độ tài liệu.Bên cạnh đó, mang lại thách thức về nguồn dữ liệu chất lượng cao dé xay dung cac

đồ thi tri thức

1.1.2.2 Công trình trong nước

Các mô hình ngôn ngữ tiếng Anh đã chứng tỏ hiệu quả đáng ké khi được áp dụng cho

bài toán nhận diện thực thể tiếng Việt Cụ thé, các kiến trúc như BiLSTM và BiLSTM

CNN CRF đã đạt được kết quả ấn tượng trên tập dir liệu VLSP2016 [7] Đặc biệt,PhoBERT [8], một mô hình được tinh chỉnh từ RoBERTa [9], đã thiết lập một tiêuchuẩn mới về hiệu suất Với điểm số F1 đạt 93.6% (PhoBERT base) và 94.7%(PhoBERT large) trên tập VLSP2016, PhoBERT đã vượt trội so với các mô hình tiền

nhiệm như BiLSTM CNN CRF, VnCoreNLP-NER [10] và VNER [11].

Sự thành công của PhoBERT cho thấy tiềm năng to lớn của việc chuyên giao kiếnthức từ các mô hình ngôn ngữ tiếng Anh sang tiếng Việt Việc tinh chỉnh một môhình đã được huấn luyện trước trên một lượng lớn dir liệu tiếng Anh có thể giúp tậndụng các biểu dién ngôn ngữ phong phú và kiến thức ngữ nghĩa đã được học, từ đó

cải thiện đáng kê hiệu suat trên các tác vụ tiéng Việt.

Ngoài PhoBERT, một nghiên cứu khác của Oanh và cộng sự đã chứng minh rằngvELECTRA [12], một biến thé của ELECTRA, cũng mang lại những cải tiến đáng

kể so với viBERT và mBERT trên cả hai tập dữ liệu VLSP2016 và VLSP2018 Thậmchí, VELECTRA còn đạt điểm F1 nhinh hơn một chút so với PhoBERT base Điềunay cho thấy răng việc áp dụng các kỹ thuật học biéu diễn tự giám sát tiên tiến, nhưcách tiếp cận của ELECTRA, có thé là một hướng đi đầy hứa hen dé nâng cao hơnnữa hiệu suât của các mô hình nhận diện thực thê tiêng Việt.

Trang 17

Tóm lại, những kết quả này cho thấy sự phát triển nhanh chóng và đầy tiềm năng củalĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt Việc áp dụng các kiến trúc và kỹ thuậthọc chuyên giao từ các mô hình ngôn ngữ tiếng Anh đã mang lại những bước tiếnđáng kẻ Tuy nhiên, vẫn còn nhiều cơ hội để khám phá và cải tiễn, đặc biệt là trongviệc phát triển các mô hình chuyên biệt cho tiếng Việt và tận dụng các nguồn đữ liệu

đa dạng và phong phú của ngôn ngữ này.

1.1.3 Mục tiêu nghiên cứu

Trong khóa luận tốt nghiệp này, sinh viên đặt ra các mục tiêu nghiên cứu sau:

e Khao sát các phương pháp tiếp cận truyền thống và hiện đại trong NER, bao

gồm các kỹ thuật dựa trên quy tắc, mô hình thống kê như: Hidden Markov

Model (HMM), Conditional Random Fields (CRF), các mô hình học sâu

như: BERT, mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) kếthợp với BERT và đặc biệt nhất là LLM.

e Tiến hành tinh chỉnh (fine-tuning) các mô hình ngôn ngữ BERT và các biến

thể của nó trên tập đữ liệu tiếng Việt

e_ Tiến hành tinh chỉnh mô hình ngôn ngữ lớn (LLM) áp dung các kỹ thuật

QLoRA, LoRA và PEFT dé tinh chỉnh trong việc giải quyết bài toán NERtiếng Việt với tài nguyên thấp

e Thử nghiệm phương pháp Split-NER, bang cách kết hợp mô hình

XLM-R-base ở giai đoạn một với mô hình ngôn ngữ Bloomz-7b1 sử dụng phương

pháp zero shot ở giai đoạn hai nhằm tăng tốc độ huấn luyện

e Đánh giá hiệu suất của các phương pháp và mô hình được thử nghiệm trên

các tập dữ liệu sử dụng độ đo F1.

1.1.4 Pham vi, đối tượng nghiên cứu

Trong đề tài này, tập trung nghiên cứu trên bộ dữ liệu PhoNER_COVIDI9 củaVịnAIResearch.

Trang 18

Vào thời điểm năm 2021, dịch bệnh COVID-19 đã và đang hoành hành khắp thế giớivới hơn 50 triệu ca nhiễm bệnh Bệnh dịch đã mang đến bao mắt mát từ kinh tế, xãhội nói chung hay sức khỏe, tỉnh thần của mỗi cá nhân nói riêng Để có thể phòngchống bệnh dịch COVID-19, cần phải tìm ra được các nơi người bệnh đi qua, nhữngngười đã tiếp xúc với người bệnh, Tại thời điểm đó, các bộ đữ liệu cho COVID-19hầu hết có trên ngôn ngữ tiếng Anh, tác giả Thịnh và các cộng sự đã xây dựng bộ dữliệu nhận diện thực thé COVID-19 — PhoNER_COVID19, nhằm hỗ trợ nghiên cứucác công cụ tìm kiếm, trích xuất đữ liệu liên quan tới bệnh dịch đề hỗ trợ phòng chốnglại dịch bệnh COVID-19 ở Việt Nam.

Bộ dữ liệu được lay từ các bài báo trực tuyến có các từ khóa như “COVID-19” hoặc

“COVID” ở Việt Nam từ các nguồn như VnExpress, ZingNews, BaoMoi vàThanhNien Thời gian các bài báo được viết từ tháng 2 năm 2020 đến tháng 8 năm

2020.

Bảng 1-1 Hướng dan gan nhãn.

Nhãn Định nghĩa

PATIENT_ID Mã định danh cua bệnh nhân COVID-19 tại Việt

Nam PATIENT ID được gan nhãn trên X, với y nghĩa bệnh nhân thứ X mặc COVID-19 tại Việt

Trang 19

LOCATION Địa điểm mà bệnh nhân đã từng đến.

ORGANIZATION Các tô chức liên quan đến bệnh nhân, ví dụ: công

ty, tô chức chính phủ hoặc tương tự, có cấu trúc

và chức năng riêng.

SYMPTOM_AND DISEASE Các triệu chứng mà bệnh nhân gặp phải và các

bệnh mà bệnh nhân mắc phải trước khi mắc bệnhCOVID-19 hoặc các biến chứng thường xuấthiện trong báo cáo tử vong.

TRANSPORTATION Phương tiện vận chuyền mà bệnh nhân sử dụng.

Chỉ gắn thẻ số nhận dạng cụ thể của phương tiện,

ví dụ: sô chuyên bay và biên sô xe buýt/ô tô.

DATE Bắt kỳ ngày nào xuất hiện trong câu

Bộ dit liệu gồm 2 cấp độ: có tách từ (bộ dữ liệu từ) và không có tách từ (bộ dữ liệutiếng) Bộ đữ liệu từ được phân từ công cụ RDRSegmenter từ VnCoreNLP Tác giả

còn sử dụng công cụ BM25Plus nhằm hỗ trợ việc gán nhãn hiệu quả hơn trong quá

33 66

trình gán nhãn cho các từ phô biến như “các trường hợp đã được xác nhận”, “nghi

ngờ”, “đã hồi phục” hoặc “tử vong” cũng như “lịch sử du lịch” hoặc “vi trí của các

trường hợp” Sau khi gán nhãn xong, Thịnh và các cộng sự đã thu được bộ đữ liệugồm 10 nhãn được định nghĩa qua Bang 1-1 Và số lượng nhãn được thống kê như

sau:

Bảng 1-2 Thống kê nhãn trong bộ dữ liệu PhoNER_COVID19.

NHÂN HUẦN PHÁT KIEM TONG

LUYỆN TRIÊN TRA CỘNG

PATIENT ID 3240 1276 2005 6521

NAME 349 188 318 855

AGE 682 361 582 1625

Trang 20

Dữ liệu được lưu với định dang Conference on Natural Language Learning (CONLL)

theo dang cột với đuôi “.coll” hoặc dang bảng ghi trong tệp json, mỗi từ cách nhau

một khoảng trắng và nhãn được gán dựa trên định dạng Inside-Outside-Begin (IOB)

Trong đề tài nghiên cứu này sử dụng tệp có định dạng json

Đâu vào: Một văn bản.

Đầu ra: Thực thê và nhãn thực thê tương ứng

10

Trang 22

1.2 Cấu trúc khóa luận tốt nghiệp

Cấu trúc khóa luận tốt nghiệp của đề tài nghiên cứu gồm các nội dung như sau:

Chương 1: TÔNG QUAN

Trong chương này sinh viên giới thiệu về NER, các vấn đề trong NER từ đó khảo sát

các công trình liên quan trong và ngoài nước Nêu rõ mục tiêu của đê tài nghiên cứu

và đối tượng nghiên cứu và cau trúc khóa luận

Chương 2: KIÊN THỨC NEN TANG

Giới thiệu sơ lược qua về NLP, từ đó cho thấy tầm quan trọng của nhiệm vụ NER

trong NLP Tiếp theo nêu rõ khái nệm NER, tổng hợp các kỹ thuật được áp dụngtrong NER và ứng dụng của NER.

Chương 3: PHƯƠNG PHÁP, KÉT QUẢ VÀ ĐÁNH GIÁ

Sơ lược về các mô hình BERT, cách thiết lập các biến thê của BERT và kết quả trên

bộ dit liệu PhoNER_COVIDI9 với Độ đo FI Tiếp theo là sơ lược về Split-NER,cách thiết lập mô hình và kết quả trên bộ dit liệu PhoNER_COVIDI9 với độ đo FI.Cuối cùng là sơ lược qua về các mô hình ngôn ngữ lớn, các thiết lập và kết quả trên

bộ dữ liệu PhoNER_COVIDI9 với độ đo F1.

Chương 4: PHAN TÍCH LOI

Chương nay phân tích các kết qua thu được ở Chương 3 từ dé so sánh, đánh giá hiệuqua của các mô hình dé đề xuất mô hình tốt nhất

Chương 5: XÂY DỰNG ỨNG DỤNG

Sử dụng các mô hình đã có được từ Chương 3 xây dựng một ứng dụng dé minh họacác kết quả của khóa luận tốt nghiệp

Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIÊN

Chương này nói về kết quả thu được của khóa luận tốt nghiệp, các hạn chế từ đó đề

ra hướng phát triển trong tương lai

12

Trang 23

Chương2 KIÊN THỨC NEN TANG

2.1 Xử lý ngôn ngữ tự nhiên

2.1.1 Khái niệm

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực của trí tuệ nhân tạo (AI) Lĩnh vựcnày tập trung vào việc dé cho máy tính có thể hiểu được con người thông nghiên cứu

và phát triển các thuật toán, mô hình và từ đó ứng dụng vào thực tế dé diễn giải ngôn

ngữ và tạo ra ngôn ngữ tự nhiên như con người Nói đơn giản hơn, NLP giúp cho

máy tính có khả năng giao tiếp với con người một cách tự nhiên nhất thông qua vănbản hoặc giọng nói.

O giai đoạn sơ khai của lĩnh vực này, các nhà nghiên cứu đã cô găng tập trung nghiên

cứu vào dịch máy nhăm tạo ra cầu nối giữa hai ngôn ngữ khác nhau Nhưng các nỗ

lực này gặp nhiêu khó khăn vì sự phức tạp của các ngôn ngữ tự nhiên Tuy nhiên, sự

ra đời của là một chương trình đáng chú ý khi mà mô phỏng một nhà trị liệu tâm lý.

Hình 2 Một ví dụ về cuộc trò chuyện với ELIZA.!

Giai đoạn tiếp theo, các nhà nghiên cứu chuyền sang sử dụng quy tắc ngôn ngữ học

dé phát triển hệ thống NLP Các hệ thống này dựa trên quy tắc ngữ pháp và từ vựng

dé phân tích và hiểu ngôn ngữ Hệ thống này van rất khó dé thực hiện vì các quy tắckhông thể bao quát được các trường hợp có thê xảy ra

! A conversation with the ELIZA chatbot Nguồn: https://en.wikipedia.org/wiki/ELIZA

13

Trang 24

Với sự phát triển của toán học, thuật toán và khả năng xử lý dữ liệu lớn Các nhànghiên cứu đã sử dụng các mô hình thống kê, học máy đề học và tìm ra các quy luậtcủa ngôn ngữ Tuy nhiên, vẫn chưa thê giải quyết được các từ có ý nghĩa phức tạpnhư đa nghĩa hoặc nghĩa bóng.

Tới nay, các mô hình học sâu đã và đang ngày càng đạt nhiều thành tựu lớn trong lĩnh

vực NLP Các mô hình này có khả năng biểu diễn sự phức tạp của ngôn ngữ từ dữliệu thô mà không cần các đặc trưng thiết kế thủ công Có thé kê tên một số cột mốcnhư sự ra đời của cấu trúc BERT do Google AI, hay mới đây nhất là GPT do OpenAIphát triển

2.1.2 Cac bài toán

Có rất nhiều bài toán trong lĩnh vực NLP, tuy nhiên trong khóa luận này sẽ đề cậpmột vài bài toán tiêu biéu và phô biến nhất

s* Các bài toán cơ bản:

e Phân tích từ loại (POS): là quá trình gan thẻ một từ trong văn ban Cac thẻ

này cho biết vai trò của từ trong câu, chăng hạn như danh từ, động từ, tính từ,trạng từ, Gan thẻ POS là một bước cơ bản trong NLP vi nó giúp máy hiểucấu trúc cú pháp và ý nghĩa của văn bản, giải quyết được sự mơ hỗ trong vănbản Ví dụ như, từ “book” trong câu “I have a book” (Tôi có một cuốn sách)

là một danh từ nhưng trong câu “I want to book a flight” (Tôi muốn đặt một

chuyến bay) thì từ “book” lại là động từ Và tuy vào vị trí POS mà nó thể hiện

một ý nghĩa khác nhau, là sách hay là động từ đặt chỗ.

e Phân (ích tình cảm (Sentiment Analysis): Phân tích tinh cam là nhiệm vu

phân loại tính phân cực của một văn bản nhất định? Ví dụ: một ý kiến dựa trênvăn bản có thể được phân loại thành "tích cực", "tiêu cực" hoặc "trung tính".Với văn bản và các nhãn đi kèm, một mô hình có thé được đào tạo dé du đoáncảm xúc chính xác Các kỹ thuật phân tích tình cảm có thé được phân loại

2 Sentiment Analysis Nguồn: https://paperswithcode.com/task/sentiment-analysis

14

Trang 25

thành các phương pháp học máy, các phương pháp dựa trên từ vựng và thậmchí cả các phương pháp kết hợp Một số tiểu thể loại nghiên cứu trong phântích tình cảm bao gồm: phân tích tình cảm đa phương thức, phân tích tình cảmdựa trên khía cạnh, phân tích ý kiến chỉ tiết, phân tích tình cảm cụ thể theo

ngôn ngữ.

Vi dụ: Tôi thích coi phim này (Tích cực)

>

o> ° Cac bài toán nâng cao:

e Tóm tắt văn bản (Text Summarization): là một tác vụ cô đọng một tài liệu

văn bản dài thành một phiên bản ngắn hơn, gọn hơn trong khi vẫn giữ đượcthông tin và ý nghĩa quan trọng nhất.3 Mục đích là tạo ra một bản tóm tắt thểhiện chính xác nội dung của văn bản gốc dưới dạng ngăn gọn Có nhiều cáchtiếp cận khác nhau dé tóm tắt văn bản, bao gồm các phương pháp trích xuất déxác định và trích xuất các câu hoặc cụm từ quan trọng từ văn bản và cácphương pháp trừu tượng tạo ra văn bản mới dựa trên nội dung của văn bảngốc

e Dich máy (Machine Translation): Dịch tự động văn ban từ ngôn ngữ nay

sang ngôn ngữ khác mà không làm thay đôi ngữ nghĩa muốn truyền đạt

Ví dụ: I want to sleep (Tôi muốn ngủ.)

e Hỏi đáp (Question Answering): là một nhiệm vụ yêu cầu trả lời các câu hỏi

dựa trên thông tin từ văn bản hoặc cơ sở dữ liệu kiến thức

Vị dụ: Tôi nên làm gì dé có một cơ thé khỏe mạnh? (Bạn nên ăn uống lànhmạnh, ngủ đủ giấc không nên thức khuya.)

e Sinh văn bản (Text Generation): là một nhiệm vu nhằm sinh ra văn bản tự

nhiên như con người.

Trang 26

nhau như trong truyền thông, giải trí, kinh doanh, tiếp thị, giáo dục, y tế, luật, Có

thể ké tên một số ứng dụng tiêu biểu thường gặp nhất là dịch tự động các văn bản,tong hợp tin tức thông qua các mô hình tạo văn bản như Chat-GPT, Gemini, Bên

cạnh đó, còn tích hợp NLP vào trong trợ lý, chatbot hỗ trợ khách hàng trong các mảng

tiếp thị, kinh tế hoặc các sản phẩm thương mại, điển hình như điện thoại di động vớitrợ lý ảo (Siri, Google Assistant), mang lại những tiện lợi trong đời sống như phânloại tin rác, Đây chỉ là một số ví dụ điển hình về ứng dụng của NLP trong đời sống.Với sự phát triển không ngừng của công nghệ, NLP hứa hẹn sẽ mang lại nhiều giá trihơn nữa trong tương lai, nhất là trong lĩnh vực tạo văn bản tự nhiên như con người.2.2 Nhận dạng thực thể có tên

2.2.1 Khái niệm

Nhận dạng thực thể có tên là một nhiệm vụ phụ trong lĩnh vực NLP Nhận dạng thựcthê có tên có nhiệm vụ trích xuất thông tin, trong đó tìm kiếm và phân loại các thànhphần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ

chức, địa điểm, thời gian, sé luong, gia tri tién té, phan tram va nhiéu loai gia tri

khác!.

e Tên người: Nguyễn Việt Anh

e Tên tổ chức: Trường đại học CNTT - Đại học Quốc gia TP Hồ Chí Minh

e_ Dia điểm: TP Hồ Chí Minh

e Thời gian: 16 tháng 06 năm 2024, Chủ Nhat

Đầu vào: Thường là văn bản thô, có thể là một câu, một đoạn văn hay một bài báohay một tài liệu văn bản bat kỳ nào đó Bên cạnh đó có thé thêm một số thông tin nhưloại từ (POS Tag), hình thái từ và thông tin từ điển (các diễn giải trí thực liên quantới thực thê)

Đầu ra: Thường là các thực thé tương ứng với từ ở đầu vào hoặc là từ với loại thựcthé hoặc là vị trí thực thé và loại thực thé

* Named Entity Recognition (NER) Nguồn: https://paperswithcode.com/task/named-entity-recognition-ner

16

Trang 27

Các tập dữ liệu thường được định dạng theo:

MUC (Message Understanding Conference): là một định dạng đánh dấu(markup) được sử dụng dé chú thích các thực thé có tên (Named Entities)trong văn ban Dinh dạng MUC sử dụng các thẻ XML dé xác định các thựcthể và loại của chúng Vi dụ: “<ENAMEX TYPE="PERSON">BarackObama</ENAMEX> đã đến thăm <ENAMEX TYPE="LOCATION">HàNội</ENAMEX>.”

CoNLL (Conference on Natural Language Learning): là một định dạngbảng phổ biến dé biểu diễn dữ liệu được chú thích tuần tự, chang hạn như cáctác vụ gan thẻ phan của câu (POS Tag) hoặc nhận dạng thực thể có tên (NER)

Mỗi dòng trong tệp CoNLL đại diện cho một từ hoặc token, và các cột đại

diện cho các tính năng khác nhau (ví dụ: từ, POS Tag, NER Tag) Ví dụ:

Ha B-LOC

Nội I-LOC

O

Một số tập dữ liệu phố biến trong tiếng Anh:

Bộ dữ liệu CoNLL-2003 được sử dụng rộng rãi trong nghiên cứu NER, baogồm các loại thực thể: Tên người (Person), Địa điểm (Location), Tổ chức(Organization), và Khác (Miscellaneous) Dữ liệu được lấy từ các bài báo củaReuters và được chia thành các tap huấn luyện, kiểm tra và đánh giá

17

Trang 28

e Bộ dữ liệu OntoNotes 5.0 bao gồm nhiều loại thực thể hơn như: Sản phẩm

(Product), Sự kiện (Event), và Ngày thang (Date) Nó được tổng hợp từ các

nguồn dữ liệu khác nhau như tin tức, hội thoại và dữ liệu trực tuyến.

e WNUT-17 là bộ dữ liệu cho nhiệm vụ WNUT 2017 được lay từ các văn bản

sinh ra từ người dùng trên mạng xã hội, được chú thích cho các thực thé mớinồi và hiếm

*

+» Một số tập dữ liệu phé biến trong tiếng Việt:

e Bộ dữ liệu VLSP 2016 và 2018 được tạo ra cho các hội thảo VLSP và bao

gồm các thực thể: Người (Person), Tổ chức (Organization), Địa điểm(Location) và Khác (Miscellaneous) Dữ liệu được lấy từ các bài báo tiếngViệt gồm 16,858 câu được gan nhãn trong đó có 14,918 thực thé

e_ Bộ dữ liệu VLSP 2021 bao gồm một tập hop rộng hon với 14 loại thực thé

chính và 26 loại thực thể con, bao gồm các thực thể như: Loại người(PersonType), Sự kiện (Event), Sản pham (Product), Kỹ năng (Skill) và nhiềuhơn nữa.

e Bộ dữ liệu NER cho COVID-19 tiếng Việt tập trung vào các thực thể liên quan

đến đại dich COVID-19 như: Mã bệnh nhân (Patient ID), Triệu chứng & Bệnh(Symptom & Disease), Tuổi (Age), Giới tính (Gender), Nghề nghiệp(Occupation), Địa điểm (Location) và nhiều hơn nữa

2.2.2 Các kỹ thuật

Vì sự phát triển của các mô hình học sâu, mô hình ngôn ngữ lớn trong lĩnh vực NLP

và liên quan tới các mô hình trong khóa luận tốt nghiệp Sinh viên sẽ trình bày các

công trình liên quan tới BERT, LLM và Split-NER.

Năm 2021, Wang và cộng sự đã cho ra đời công trình ACE [14], với khả năng tự

động kết hợp các mô hình Embeddings mãnh mẽ như BERT, Elmo, GloVe và fastText cùng với BiLSTM-CRF hoặc BiLSTM-Biaffine đưa vào trong bộ điều khiển.Kết quả của công trình đã được cải thiện với 94.6% ở độ đo F1 trên bộ CoNLL-2003

18

Trang 29

Và phương pháp này cho thấy sự hữu hiệu hơn trên 21 bộ dữ liệu, đạt hiệu suất vượttrội trên 19 bộ trong tổng số 21 bộ thử nghiệm.

Mô hình Transformer là mô hình nổi bật trong nhiệm vụ NER Nó giải quyết triệt dé

các thách thức mà mạng nơ-ron hồi quy (RNN) gặp phải như tốc độ huấn luyện mô

hình hay hiện tượng biến mắt độ đốc do các chuỗi quá dài từ đó làm biến mắt sự phụthuộc giữa các từ so với các từ ở xa nó Các mô hình Transformer xử lý chuỗi songSong các phần tử trong chuỗi, do vậy tốc độ huấn luyện có thé được cải thiện bằngkhả năng tính toán song song của GPU Kiến trúc nổi tiếng hiện nay là kiến trúcBERT, thông qua công trình nghiên cứu về kiến trúc BERT [15] cho thấy, vì BERT

sử dụng cơ chế tự chú ý (self-attention) trong kiến trúc của mình giúp encoder nhìn

vào các từ khác trong lúc mã hóa một từ cụ thé; vì vậy, BERT có thé hiểu được sựliên quan giữa các từ trong một câu, ké cả khi chúng có khoảng cách xa Các decodercũng có kiến trúc giống như vậy nhưng giữa chúng có một lớp attention dé nó có thétập trung vào các phan liên quan của đầu vào Bằng việc hiểu ý nghĩa của từ trongcâu, giúp cho mô hình nắm rõ ràng thực thé trong ngữ cảnh của văn bản đó Vi dụnhư “Apple sắp ra mắt Iphone 15” vậy “Apple” ở đây sẽ hiểu là một công ty thay vì

là quả táo Và nhiều công trình sử dụng BERT [15], [16], [17] và đạt kết quả cao trêncác bộ dữ liệu như OntoNotes v5 (English) [18], WNUT 17 [19],

Ngoài ra, có công trình biến nhiệm vụ NER thành hai nhiệm vụ đơn giản độc lập [20]gồm một nhiệm xác định vị trí thực thể và sau đó phân loại thực thể thông qua phươngpháp trả lời câu hỏi Trong đó, mô hình xác định vi trí thực thể sẽ nhận đầu vào gồm

câu hoi “Extract important entity spans from the following text” và văn ban (“Emily

lives in United States”) và đưa ra chính xác đầu ra là các từ đã được đánh dấu dựatrên cấu trúc BIOE (“Emily” và “United States” là các thực thé cần tìm) Sau đó, kếtqua của mô hình đầu tiên, sẽ được biến thành câu hỏi (“What is Emily?”, “What isUnited States?”) và ghép vào với văn bản ban đầu dé trở thành đầu vào Kết qua của

mô hình thứ hai là loại thực thể của các thực thể đã đề cập trong câu hỏi Cuối cùng,kết hợp cấu trúc BIOE và loại thực thể ta thu được kết quả của nhiệm vụ NER Bởi

vì khi huấn luyện hệ thống Split-NER này, cả hai mô hình này là độc lập nên mang

19

Trang 30

lại tốc độ huấn luyện nhanh hơn so với phương pháp truyền thống mà vẫn giữ đượckết quả tốt.

Hiện nay, các mô hình ngôn ngữ lớn với kích thước tham số lớn và được huấn luyệntrên một tập đữ liệu văn bản lớn giúp cho các mô hình có khả năng hiểu đặc trưng về

ngữ nghĩa, cú pháp của các ngôn ngữ như GPT3 [21], Bloom [22] va Llama 2 [23].

Mặc dù mô hình lớn có nhiều ưu điểm về kiến thức nhưng song lại thiếu tính chuyên

môn cho các nhiệm vu NER, dé giải quyết điều đó, công trình đã kết hợp các mô hìnhtinh chỉnh nhỏ với LLM (LinkNER [24]) để kiếm tra sự chắc chắn và đã đạt được kếtquả vượt qua cả các mô hình SOTA trong bài kiểm tra độ bền (robustness tests)

Trong những năm gần đây, nhiệm vụ NER đang từng ngày phát triển vượt bậc và đạtđược kết quả ấn tượng, nhờ sự ra đời của mô hình BERT [25], GPT và các biến thểcủa chúng Bên cạnh đó với sự kết hợp biểu diễn sinh học và ngữ pháp đã cải thiệnkhả năng hiểu ngữ cảnh và mối quan hệ giữa các thực thé trong văn bản Do đó NERđược ứng dụng sâu rộng trong nhiều lĩnh vực cụ thê như y học (BioNER [26]), tàichính dé xử lý thông tin chuyên ngành và đưa ra quyết định chính xác dựa trên ngữcảnh.

Mặc dù đã đạt nhiều tiến bộ, nhưng vẫn tồn tại một số thách thức khi triển khai vàphát triển hệ thống NER như dữ liệu bị thiếu và có sự chênh lệch các thực thé khiếncho các thực thé hiếm gặp khó xác định Bên cạnh đó, dù việc hiểu văn bản đã đượccải thiện nhờ tích hợp các phương pháp tiễn bộ, nhưng mối quan hệ giữa các thực thểthường phức tạp và đa dạng Một số tình huống đặc biệt cần phải hiểu sâu sắc về ngônngữ và kiến thức chuyên ngành như trong y khoa, từ “MRI” có thé hiểu theo 2 nghĩa

“Magnetic Resonance Imaging” hay “Magnetic Resonance Angiography” Đề biếtchính xác “MRI” được hiểu theo nghĩa nào thì đòi hỏi mô hình phải hiểu sâu sắc vềngôn ngữ và kiến thức chuyên ngành

2.2.3 Ung dung

NER có nhiều ứng dụng thiết thực trong cả lĩnh vực công nghệ va đời sống hang ngày

gôm:

20

Trang 31

e Trích xuất thông tin: NER giúp trích xuất thông tin quan trong từ lượng lớn

văn bản phi cấu trúc, chăng hạn như tin tức, báo cáo, tài liệu pháp lý, hồ sơ ytế, Thông tin này có thé được sử dụng dé xây dựng cơ sở dit liệu, hỗ trợ raquyết định, hoặc cung cấp thông tin cho người dùng

e Phân (ích quan điểm: NER giúp xác định các thực thé được nhắc đến trong

các bài đánh giá, bình luận, từ đó phân tích quan điểm của người dùng về sản

phẩm, dich vụ, thương hiệu,

e Tóm tắt văn ban: NER giúp xác định các thực thé quan trong trong văn bản,

từ đó tạo ra các bản tóm tắt ngăn gọn và chính xác, giúp người dùng tiết kiệmthời gian và công sức.

e Dịch may: NER giúp xác định va dịch chính xác các tên riêng, thuật ngữ

chuyên ngành, từ đó cải thiện chất lượng dịch thuật

e_ Hỏi đáp tự động: NER giúp hệ thống hỏi đáp tự động hiểu rõ câu hỏi của

người dùng, đặc biệt là các câu hỏi liên quan đến thực thé cụ thé, từ đó cungcấp câu trả lời chính xác và nhanh chóng

e Phan tích mang xã hội: NER giúp phân tích các bài đăng trên mang xã hội,

xác định các chủ đề, xu hướng, và thực thé được nhắc đến nhiều nhất, từ đó

hỗ trợ các hoạt động quảng cáo, quản lý thương hiệu, và nghiên cứu thị trường.

Ví dụ khi ta tìm kiếm thông tin, các công cụ tìm kiếm sử dụng NER dé hiểu rõ ý địnhtìm kiếm của người dùng, từ đó đưa ra kết quả phù hợp hơn [27] Ví dụ, khi tìm kiếm

"nhà hàng ở Hà Nội," NER giúp công cụ tìm kiếm xác định rằng chúng ta đang tìmkiếm thông tin về thực thé "nhà hang" tai địa điểm "Hà Nội Hay NER được ứng dụngtrong trợ lý ảo nhằm tìm ra đúng các tác vụ, hành động từ đó thực thi Ví dụ như, khi

ta nói "Hey Siri, đặt báo thức lúc 6 giờ sáng mai", Siri [28] sẽ xác định thực thé "6giờ sáng mai" là thời gian và thực hiện hành động đặt báo thức Bên cạnh đó còn giúptạo ra các chatbot trong các nganh dịch vu nhăm hỗ trợ trả lời những câu hỏi dựa trêncác mục định sẵn Đặc biệt trong ngành y tế, str dụng NER nhằm trích xuất thông tin

21

Trang 32

triệu chứng, bệnh va thuôc từ các hô sơ bệnh án điện tử như Amazon Comprehend Medical.

22

Trang 33

Chương 3 PHƯƠNG PHÁP, KET QUA VÀ ĐÁNH GIÁ

Trong chương nay, sinh viên sẽ trình bay các phương pháp mà sinh viên sử dụng

trong quá trình thực nghiệm trên bộ dữ liệu PhoNER_COVID19 và nhiệm vụ 1 của

SOMD2024 Theo những gi tìm hiểu và khảo sát được, sinh viên thay các bài toán về

NER thường được sử dụng các mô hình BERT và biến thé của BERT và van đạt kết

quả tốt, chính vì thế ở phần đầu khóa luận nghiên cứu sẽ tiếp cận bài toán NER bằngcác mô hình như mBERT, PhoBERT và XLM-RoBERTa.

Ở phan tiếp theo, sinh viên sẽ thử nghiệm phương pháp Split-NER cho bài toán NER.Trong đó, sinh viên sẽ chia ra làm các giai đoạn khác nhau như sau:

Với PhoNER-COVID19 gồm 3 giai đoạn:

— Huấn luyện mô hình xác định vi trí thực thé bang các mô hình mBERT,

PhoBERT và XLM-RoBERTa Trong giai đoạn này đữ liệu nhãn sẽ bị ândưới thực thể X

— Huấn luyện mô hình phân loại thực thể băng các mô hình mBERT,

PhoBERT và XLM-RoBERTa nhằm tìm hiểu nhãn X là gì

— Kết hợp mô hình ở giai đoạn | và giai đoạn 2 dé phuc vu cho nhiém vu

NER.

“ Voi nhiệm vu | của SOMD2024 gồm 3 giai đoạn:

— Huan luyện mô hình xác định vi tri thực thể bang các mô hình MBERT,

PhoBERT và XLM-RoBERTa Trong giai đoạn nay dit liệu nhãn sẽ bị ândưới thực thể X

— Huấn luyện mô hình phân loại thực thé bang các mô hình MBERT,

PhoBERT và XLM-RoBERTa nhằm tìm hiểu nhãn X là gi

— Huấn luyện mô hình nhị phân nhằm kiểm tra xem câu có thực thể hay

không Sau đó kết hợp với mô hình ở giai đoạn 1 và giai đoạn 2 dé phục

vụ cho nhiệm vụ NER.

Phần cuối của khóa luận này sử dụng mô hình LLM như Bloomz, Bloom, Llamanhằm giải quyết nhiệm vụ NER Bên cạnh đó, trong phần này còn sử dụng các kỹ

23

Trang 34

thuật như: Peft, QLoRa hoặc LoRa để giảm thiểu tài nguyên sử dụng và chỉnh sửa lờinhắc cho phủ hợp với bài toán.

3.1 Mô hình BERT

3.1.1 Tổng quan

BERT (Biểu diễn thé hiện mã hóa hai chiều từ Transformer) là một mô hình ngônngữ được phát triển bởi Google do Jacob Devlin và cộng sự từ Google đã tạo ra vàcông bố vào năm 2018 [25] [29] BERT ra đời trong bối cảnh dựa trên yêu cầu biểudiễn theo ngữ cảnh trước khi dao tạo và cũng là mô hình đầu tiên có thé biểu diễn

ngôn ngữ hai chiều sâu, không giám sát với kho văn bản đơn giản Wikipedia so với

các mô hình trước đó như Semi-supervised Sequence Learning [30] hay Elmo [1].

Các biểu diễn trước khi đào tạo lúc đó bao gồm biéu diễn không ngữ cảnh (như

Word2Vec hay GloVe), một chiều hoặc hai chiều Với các biểu diễn không ngữ cảnh,

vi dụ như từ “bank” trong cum từ “bank account” hay “bank of the river” thì déu duochiểu giống nhau Còn với biểu dién đơn hướng thì từ “bank” sẽ được dựa phan phía

trước cua từ, như trong câu “I accessed the bank account” thi “bank” có thể dựa vàophan “I accessed the” mà không có “account” trong đó Tuy nhiên với BERT, thì

“bank” sẽ được hiểu dựa trên “I accessed the account”, cho nên mô hình có théhiệu sâu được ngữ cảnh của từ hơn so với các cách biêu diễn trước đó.

5 What Makes BERT Different? Nguồn:

https://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processing/

24

Trang 35

Hình 4 Sơ đồ mô hình BERT cho NER.

Các biến thé của mô hình BERT được sử dung trong bài khóa luận bao gồm:

- mBERT: là một mô hình đa ngôn ngữ dựa trên BERT [25] đã được huấn luyện

trên 104 ngôn ngữ khác nhau bao gồm tiếng Việt với kho dit liệu Wikipedia

- PhoBERT [8]: là mô hình được dựa trên mô hình RoBERTa được tùy chỉnh

sao cho phù hợp với ngôn ngữ tiếng Việt Mô hình này cũng đạt được hiệusuất vượt trội hơn các mô hình đơn ngôn ngữ và đa ngôn ngữ cho nhiệm vụNER tiếng Việt.

- XLM-RoBERTa (XLM-R): là mô hình đa ngôn ngữ của RoBERTa [9] đã

được huấn luyện trước trên 2,5TB dữ liệu CommonCrawl được lọc chứa 100ngôn ngữ trong đó có tiếng Việt

25

Trang 36

3.1.2 Thiết lập

Đâu tiên, sinh viên sẽ xử lý dữ liệu từ chữ sang các vector đê phù hợp với mô

hình mBERT, PhoBERT và XLM-RoBERTa.

Giả sử đữ liệu huấn luyện gồm S câu với 5; là một câu s thứ j tương ứng có L chuỗinhãn với L; là một chuỗi nhãn / thứ 7 như sau:

Trong đó, các E; là ma trận Embeddings gồm Token Embeddings, Segmentembeddings va Position embeddings như Hình 5.

26

Trang 37

Input <CLS> bệnh nhân 6 ghé qua T ##op h ##oá Ph ##ượng | § <SEP>

Hình 5 mô phỏng dau vào của mô hình BERT [25]

Đầu vào sau khi xử lý sẽ như sau:

Các siêu tham số trong phần này được thiết lập như sau:

Epochs = 5, Batch size = 8, Learning rate = 2e — 5

xlm-roberta-large — xlm-roberte-base — xIm-roberta-large =

Hình 6 Kết quả F1-micro, Fl-macro và mat mát của giai đoạn phát triển với mỗi

epoch trên câp độ tiêng.

Dựa trên Hình 6 có thê thấy được các mô hình đều dừng học sau tầm 5 epochs Các

mô hình trong epochs đầu tiên cũng đã đạt kết qua khá cao (hơn 0,91 ở độ đo F1Micro và 0,82 ở độ đo F1 Macro) Và tốt nhất là PhoBERT-large, đạt hiểu quả nhất

27

Trang 38

ở epoch đầu tiên Tuy nhiên nếu xét trong quá trình thì XLM-R, có hiệu quả học tốt

và đều đặn mặc dù khởi đầu có độ đo F1 thấp với mất mát cao nhất

Bảng 3-1 Bảng kết quả mô hình XLM-R của sinh viên và tác giả bộ đữ liệu

PhoNER_COVID19 [31].

XLM-R-BASE XLM-R-LARGE XLM-R- XLM-R-LARGE

(SINH VIÊN) (SINH VIÊN) BASE

Dựa trên Bảng 3-1, kết quả mô hình XLM-R của đề tài tốt hơn so với mô hình của

tác giả một chút Điều này có thé do sự khác nhau trong quá trình xử lý đầu vào và

các thiệt lập siêu tham sô.

Bảng 3-2 Kết quả F1 của các biến thể BERT trên tập test của cấp độ tiếng

MBERT PHOBERT- PHOBERT- PHOBERT-

XLM-R-BASE XLM-R-BASE-V2 LARGE XLM-R-BASE LARGE

AGE 0.9613 0.9344 0.9192 0.9275 0.9623 0.9734

DATE 0.9889 0.9856 0.9865 0.9868 0.9837 0.9885

GEN 0.9675 0.9419 0.9480 0.9484 0.9659 0.9795

28

Tiêu đề	Nhận dạng thực thể có tên dựa trên mô hình ngôn ngữ lớn
Tác giả	Nguyễn Việt Anh
Người hướng dẫn	PGS.TS Nguyễn Lưu Thủy Ngân, ThS. Đặng Văn Thìn
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	77
Dung lượng	75,14 MB