Ngô Quốc Hưng Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 31/12/2023 Sinh viên thực hiện: Phan Doãn Thái Bình - 20520043 Lê Phước Vĩnh Linh - 20521531 Nội dung đề tai:Mo ta chỉ tiết
Trang 1ĐẠI HỌC QUỐC GIA
THÀNH PHÔ HO CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THONG TIN
KHOA KHOA HOC MAY TÍNH
KHÓA LUẬN CỬ NHÂN
NHÂN DIEN THUG THE DA TẦNG TRONG CAC
BAI BAO KHOA HỌC THUỘC LĨNH VỰC NONG NGHIỆP
LÊ PHƯÓC VĨNH LINH - 20521531 PHAN DOAN THÁI BÌNH - 20520043
GIẢNG VIÊN HƯỚNG DẪN:
TS NGÔ QUOC HUNG
THANH PHO HO CHi MINH, 2024
Trang 2Hội đồng
Hội đồng bảo vệ luận án đã được thành lập dựa theo Quyết định số
ngày / / của Hiệu trưởng Trường Đại học Công nghệ Thông tin Ủy ban
này bao gồm các thầy cô xuất sắc, những người có nhiều chuyên môn và kiến
thức trong lĩnh vực nghiên cứu cụ thể có liên quan đến việc bảo vệ khóa luận Để
đảm bảo rằng tat cả các khía cạnh của việc bảo vệ khóa luận đều được giải quyết
thỏa đáng, những nhân sự sau đây đã được lựa chọn để thành lập hội đồng:
© Chủ tịch hội đồng:
© Thư ký:
e Thành viên:
Trang 3ĐẠI HỌC QUOC GIA TP HỒ CHi MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN 1n -e-—
TP HCM, ngay thdng ndm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
CỦA CÁN BỘ HƯỚNG DẪN
Tên khóa luận:
NHẬN DIỆN THỰC THỂ ĐA TẦNG TRONG BÀI BÁO KHOA HỌC
THUỘC LĨNH VỰC NÔNG NGHIỆP
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Phan Doãn Thái Bình 20520043 TS Ngô Quốc Hưng
Lê Phước Vĩnh Linh 20521551
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm Một số nhận xét về hình thức cuốn báo cáo:
Trang 5ĐẠI HỌC QUOC GIA TP HỒ CHi MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN 1n -e-—
TP HCM, ngay thdng ndm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
CỦA CÁN BỘ PHẢN BIỆN
Tên khóa luận:
NHẬN DIỆN THỰC THỂ ĐA TẦNG TRONG BÀI BÁO KHOA HỌC
THUỘC LĨNH VỰC NÔNG NGHIỆP
Nhóm SV thực hiện: Cán bộ phản biện:
Phan Doãn Thái Bình 20520043
Lê Phước Vĩnh Linh 20521551
Đánh giá Khóa luận
5 Về cuốn báo cáo:
Số trang Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm Một số nhận xét về hình thức cuốn báo cáo:
Trang 7Lời cảm ơn
Lời nói đầu tiên, chúng tôi xin bày tỏ lòng biết ơn sâu sắc nhất đến tat cả những thầy cô đã tham gia vào sự hoàn thành một cách thành công của khoá luận này.
Trước tiên và quan trọng nhất, chúng tôi xin gửi lời cảm ơn đến Tiến sĩ Ngô Quốc
Hưng và Tiến sĩ Lương Ngọc Hoàng, vì sự hướng dẫn và hỗ trợ vô giá của các thầy
trong suốt quá trình thực hiện dé tài này Thầy Ngô Quốc Hung là một người cố
vấn tuyệt vời, luôn đưa ra những lời động viện và góp ý sâu sắc đến chúng tôi,
thách thức chúng tôi suy nghĩ vượt ra ngoài khuôn khổ Chúng tôi vô cùng biết ơn
sự tận tâm và cống hiến của các thay cho dé tài này.
Chúng tôi cảm ơn các thầy/cô phản biện đã đóng góp ý kiến quý báu, những ý kiến đó đã giúp cải thiện chất lượng của khoá luận này rất nhiều.
Chúng tôi cũng xin cảm ơn gia đình và bạn bè đã ủng hộ và động viên chúng tôi
trong suốt quá trình thực hiện khoá luận.
Có thể nói, khoá luận này sẽ không thể hoàn thành được nếu thiếu sự hỗ trợ và giúp đỡ của tat cả mọi người đã được đề cập ở trên Chúng tôi xin gửi lời cảm ơn chân thành nhất tới tất cả từng người trong số họ.
Trang 8ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TÊN DE TÀI: NHẬN DIỆN THỰC THE DA TANG TRONG BÀI BAO KHOA
HỌC TRONG LĨNH VUC NONG NGHIỆP
Cán bộ hướng dẫn: TS Ngô Quốc Hưng
Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 31/12/2023
Sinh viên thực hiện:
Phan Doãn Thái Bình - 20520043
Lê Phước Vĩnh Linh - 20521531
Nội dung đề tai:(Mo ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết
quả mong đợi của đề tài)
— Mục tiêu của đề tài: Mục tiêu chính của đề tài là nghiên cứu và tìm hiểu về bài
toán Nhận diện thực thê đa tang trong bài báo khoa học thuộc lĩnh vực nông nghiệp
(Nested Named Entity Recognition from Scientific Articles in Agriculture) cùng
với các phương pháp đã được dé xuất trước đây Từ đó chúng em sé xây dựng một
bộ đữ liệu dành riêng cho lĩnh vực này góp phần như nguồn tài nguyên quý giá cho cộng đồng nghiên cứu Bên cạnh đó, nhóm cũng sẽ tìm hiểu và tinh chỉnh một mô hình state-of-the-art (SOTA) hiện nay trên bộ dữ liệu đề xuất Và sau cùng, nhóm
sẽ tích hợp phát triển một chiến lược huấn luyện mới nhằm cải thiện hiệu suất của
mô hình hiện có nhưng không đòi hỏi nguồn tài nguyên quá lớn với triển vọng chiến lược này có thé giúp các nhóm nghiên cứu nhỏ có thé áp dụng vào quá trình huấn luyện các mô hình Xử lý ngôn ngữ tự nhiên lớn hiện nay.
— Phạm vi đề tài:
+ Nghiên cứu về bài toàn nhận diện thực thể da tang: bao gồm việc tìm hiểu chỉ tiết về bài toán Nhận diện thực thé có tên, Nhận diện thực thé đa tang, ứng dụng thực tế trong lĩnh vực nông nghiệp, các thách thức của bài toán nói chung và bài
toán trong lĩnh vực nông nghiệp nói riêng.
+ Tìm hiểu các cách tiếp cận giải quyết bài toán hiện có: Nghiên cứu, phân tích
và làm rõ ưu, nhược điểm các hướng giải quyết của bài toán.
+ Đề xuất bộ dữ liệu mới: Thu thập, tiền hành đánh nhãn, đánh giá độ tin cậy của
bộ dữ liệu về thực thé đa tang trong bai báo khoa học thuộc lĩnh vực nông nghiệp.
+ Tìm hiểu mô hình và chiến lược huấn luyện thuật toán mới: Bao gồm viéc
tìm hiểu, triển khai mô hình và mô ta cụ thé về cách mô hình hoạt động Đề xuất
Trang 9một chiên lược mới dựa trên mô hình, mô tả cụ thê về cách hoạt động của nó trong quá trình huấn luyện
+ Thử nghiệm và đánh giá: Áp dụng chiến lược mới với mô hình trên tập dữ liệu
đề xuất Đánh giá và so sánh hiệu suất của chiến lược mới với mô hình trong các trường hợp cụ thể.
— Đối tượng: Là bài toán Nhận diện thực thê đa tầng, cụ thể là trong các bài báo, tạp
chí khoa học về lĩnh vực nông nghiệp
— Phương pháp thực hiện:
+ Tìm hiểu và nghiên cứu cơ bản về Nhận diện thực thé trong bai báo khoa học
thuộc lĩnh vực nông nghiệp và các cách giải quyết hiện có.
+ Thu thập, gan nhãn và đánh giá bộ dữ liệu dé xuất.
+ Triển khai mô hình dựa trên sự hiểu biết từ nghiên cứu trước đó và kiến thức toán học và thuật toán vốn có.
+ Thử nghiệm chiến lược mới trên tập dữ liệu đề xuất và thu thập kết quả.
+ So sánh kết quả thu được từ mô hình SOTA với các bộ dữ liệu chuẩn hiện có trong bài toán thực thể đa tầng.
+ Phân tích và đánh giá hiệu suất của chiến lược mới.
— Kết quả mong đợi của đề tài:
+ Đạt được sự hiểu biết chi tiết về bai toán nhận diện thực thé đa tầng trong bải
báo khoa học thuộc lĩnh vực nông nghiệp.
+ Hiểu biết thêm về các mô hình học sâu đề giải quyết bài toán đề xuất như là cách
hoạt động, kết quả hiệu suất.
+ Phát triển chiến lược mới dé giải quyết bài toán và hy vọng chiến lược mới sẽ
đạt được kết quả tốt hơn các mô hình SOTA hiện nay với một nguồn tài nguyên
hạn chê
Từ kêt quả thu được của việc nghiên cứu dé tài, nhóm hy vọng có thê công bô một bài
báo khoa học dựa trên đê tài của khóa luận này.
Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên
tham gia)
— Tháng đầu tiên: Tìm hiểu đề tài nghiên cứu.
+ Binh và Linh cùng tìm hiểu về bài toán Nhận diện thực thé đa tang trong bài báo
khoa học thuộc lĩnh vực nông nghiệp, đọc các tài liệu, bài báo khoa học liên quan và xây
dựng hiểu biết về bài toán cũng như là chiến lược huấn luyện mới - Học với ít mẫu Tim hiểu các mô hình để giải quyết bài toán và tập trung vào một số cách tiếp cận hiệu quả trong các công trình khoa học liên quan gần đây Tìm hiểu về các tập dữ liệu chuẩn đã có
và chuẩn bị chúng dé thử nghiệm mô hình.
— Tháng thứ hai: Xây dựng bộ dữ liệu.
+ Tiến hành thu thập dữ liệu, và gán nhãn với sự đồng hành của các chuyên gia.
+ Tiến hành đánh giá về bộ dữ liệu đã đề xuất.
Trang 10— Tháng thứ ba: Triển khai mô hình và phát triển chiến lược mới thử nghiệm và
đánh giá.
+ Triển khai mô hình đã xác định từ tháng đầu tiên, tinh chỉnh mô hình dựa trên bộ dữ
liệu đê xuât, so sánh kêt quả thu được với các mô hình hiện có.
+ Phát triên chiên lược huân luyện mới, tích hợp vào mô hình hiện có, so sánh các kêt
quả trước và sau khi áp dụng kêt hợp chiên lược Học với it mẫu.
+ Kết quả triển vọng, nhanh chóng hoàn thành bài báo khoa học và nộp tại hội nghị SOICT
2023.
— Thang cuối cùng: Hoàn thiện báo cáo và chuẩn bị trình bày.
+ Nhóm nhận được thư chấp nhận về bài báo khoa học tại hội nghị SOICT 2023.
+ Dựa trên kết quả thu được từ quá trình thực nghiệm cũng như những góp ý quý giá từ
bài báo khoa học được công nhận của nhóm, nhóm tập trung triển khai hoàn thiện khóa luận tốt nghiệp.
Xác nhận của CBHD TP HCM, ngay thang năm
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Phan Doãn Thái Bình
Ngô Quốc Hưng
Lê Phước Vĩnh Linh
Trang 112 Các nghiên cứu liên quan 16
2.1 Các hướng tiếp cận bài toán nhận diện thực thể đa tầng 17
2.1.1 Nhận diện dựa trên tầng AT 17
Trang 122.1.2 Nhận diện dựa trên siêu đồ thị 20
2.1.3 Nhận diện dựa trên đoạn - 23 2.14 Cácphương pháp khác 26
2.2 Phép biến đổi affine trong xử ly ngôn ngữ tự nhiên
3.4 Cơ chế chú ý Triaffine trong việc biểu diễn đoạn chéo
3.5 Đánh giá điểm Triaffine trong việc phân loại đoạn
4 Kết quả thực nghiệm 44
4.1 Xây dựng bộ nhãn và dữ liệu| 44
Trang 134.1.2 Pipeline thu thập va gan nhãn dt liệu
41.3 Đặc điểm của dữ liệu| 47
4.2 Chiến lược huấn luyện| - 494.3 Kết quả thựcnghiệm| So 51
44 Phân tchlỗi - co 54
5 Kết luận và hướng phát triển 56
51 Kếtuận @€©2Z7.@£6 é \A 56 5.2 Hướng pháttriển_ ch 57
Tài liệu tham khảo 58
Trang 14Danh sách hình ve
Ví dụ về nhận diện thực thể có tên
Ví dụ về nhận diện thực thể có tên trong nông nghiệp
Ví dụ thực thể đa tầng trong ngữ cảnh thông thường
Ví dụ về ba loại nhiệm vụ con của bài toán NER
2.1 Kết quả của mô hình Pyramid trong một câu từ bộ dữ liệu NNE
bao gồm 8 thực thể đa tầng | 182.2 Một ví dụ về áp dụng siêu đồ thị giải quyết thực thể đa tầng.|
2.3 Tổng quan về hướng tiếp cận dựa trên đoạn để giải quyết bài toán
nhận diện thực thể đa tầng | - 242.4 Phép biến đổi Triaffine| 27
2.5 Một ví dụ về định dang IO Tagging trong việc gán nhãn thực thể.| 29
2.6 Một ví dụ về định dạng BIO Tagging trong việc gan nhãn thực thể| 30
3.1 Nhiệm vụ biểu diễn đoạn 34
Trang 153.2 Nhiệm vụ phân loại đoạn| 35
3.3 Kiến trúc mô hình BERT - 373.4_ Kiến trúc mô hình Bi-LSTM.| 39
3.5 Cơ chế chú ý Triaffine| Ặ ee 40
3.6 Cách tính điểm Triaffine cho một đoạn.
4.2 Chiến lược huấn luyệm|7„ đ8 50
Trang 16Danh sách bảng
4.1 Bộ nhãn tầng 1 của SAGRI| - 45
4.2 Bộ nhãn tầng 2 củaSAGRI[ - 46
4.3 Thông kê chi tiết về các thực thể SAGRI 48
4.4 Đánh giá mô hình Triaffine trên SAGRI và GENIA 51
4.5 Đánh giá (độ đo F1) mô hình Triaffine trên mỗi nhãn của SAGRI| 52
4.6 So sánh các mô hình khác nhau trên bộ du liệu SAGRI 53
4.7 So sánh 10 nhãn bị gan sai nhiều nhất bởi mô hình 55
Trang 17Danh mục chữ viết tắt
AGER Agricultural Entity Recognition.
BIO Beginning-Inside-Outside tagging.
IO Inside-Outside tagging.
NER Named Entity Recognition.
Nested NER Nested Named Entity Recognition.
NLP Natural Language Processing.
POS Part-Of-Speech.
Trang 18Tóm tắt nội dung
Trong lĩnh vực nông nghiệp kỹ thuật số, khả năng đưa ra quyết định kịp thời, có
lợi nhuận và kha thi phụ thuộc vào dữ liệu nông nghiệp và dữ liệu canh tác liên
quan mà các nhà nông học sử dụng, bao gồm các nguồn văn bản như bài báo, ghi
chú từ các trang trại và báo cáo khoa học nông nghiệp Bài toán Nhận dạng thực
thể có tên (Named Entity Recognition - NER) và Nhận dạng thực thể nông nghiệp
(Agricultural Entity Recognition - AGER) tạo điều kiện cho sự hiểu biết ngữ nghĩa, cho phép xác định, phân loại chính xác các thành phần canh tác và khám phá thêm kiến thức.
Tuy nhiên, thách thức của nhận dạng thực thể có tên trong lĩnh vực nông nghiệp
là nó đòi hỏi một lượng lớn dữ liệu được chú thích, rat ton kém va mat thời gian
dé thu thập Do đó, cách tiếp cận phổ biến là hoc tập đữ liệu trong quá trình huấn luyện và kiểm tra kết quả trên dữ liệu trong thé giới thực Thật không may, cách tiếp cận này có thể không hiệu quả vì thường xảy ra trường hợp thiếu dữ liệu huấn luyện Và như chúng ta đã biết, dữ liệu đóng một vai trò quan trọng trong mọi bài toán sử dụng cách tiếp cận dựa trên mô hình máy học Bên cạnh đó là sự khác biệt lớn về ngữ cảnh giữa dữ liệu được sử dụng để đào tạo và đữ liệu trong thế giới thực, được gọi là “khoảng cách miền” Hơn thế nữa, bài toán nhận điện thực thể nông nghiệp đòi hỏi phải xác định các thực thể được đặt tên lồng nhau xuất phát từ sự phức tạp vốn có trong lĩnh vực này Thông tin liên quan thường đi qua nhiều yếu tố được kết nối với nhau thay vì tôn tại dưới dạng các thực thể biệt lập.
Ví dụ, để hiểu được một phương pháp canh tác mục tiêu có thể cần phải xác định
chính xác loại cây trồng, các chất đinh dưỡng liên quan hoặc bệnh tật — mỗi loại
tạo thành một thực thể lồng nhau trong một ngữ cảnh rộng hơn.
Do đó, việc nhận dạng thực thể nông nghiệp từ văn bản phi cấu trúc mang lại tầm quan trọng lớn cho việc truy xuất thông tin và xây dựng kiến thức trong lĩnh vực
nông nghiệp.
Trang 19Khóa luận này (1) xây dựng bộ dữ liệu SAGRI, kết hợp một bộ nhãn mới cho AGER bao gồm các khái niệm khoa học và nông nghiệp phổ biến, được thiết lập một cách
có phương pháp thông qua chú thích Bộ nhãn này cho phép trích xuất các khái
niệm độc lập với miền từ các tóm tắt bài báo khoa học (2) Khóa luận này cũng giới
thiệu một mô hình học sâu tiên tiến với cơ chế chú ý Triaffine để trích xuất thực thể mạnh mẽ (3) Ngoài ra, nó còn trình bày một chiến lược học tập với ít mẫu nhằm tối
ưu hóa việc phân loại giữa các miễn, chủ yếu khi xử lý dir liệu đào tạo khan hiếm Đáng chú ý, chiến lược này đạt được điểm F1 cao so với mô hình cơ sở, nhắn mạnh
tiềm năng của nó trong việc cắt giảm đáng kể dữ liệu đào tạo cần thiết.
Từ khóa:
Domain Adaptation, Named Entity Recognition, Agriculture Named Entity nition, Nested Named Entity Recognition, Few-short learning.
Trang 20Recog-Chương 1
Giới thiệu chung
1.1 Tổng quan
Nhận diện thực thể có tên (Named Entity Recognition - NER) là một bài toán
quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt là trong lĩnh vực nông nghiệp.
NER là quá trình xác định các thực thể có liên quan đến nông nghiệp, như têncây trồng, loài vật, bệnh hại, phương pháp canh tác, v.v và phân loại chúng theocác tầng khác nhau, như tên, loại, thuộc tính, v.v Không chỉ dừng lại ở các thực
thể phẳng thông thường, trong thực tế, có rất nhiều thực thể chứa đựng một thực
thể khác bên trong nó - được gọi là thực thể đa tầng Trong nông nghiệp, thông
tin thường được tạo ra từ nhiều nguồn khác nhau như cảm biến, dữ liệu thời tiết,thông tin về đất đai, sự phát triển của cây trồng, v.v Những dtr liệu này thường
không chỉ đơn thuần là dữ liệu đơn chiều mà là sự kết hợp giữa các yêu tố khác
nhau, tạo nên một mạng lưới thông tin đa tầng.
Ngày nay, với sự phát triển không ngừng của tri thức và công nghệ, việc truy xuất
và phân tích thông tin từ các nguồn kiến thức khổng 16 như các ấn phẩm khoa
học, tài liệu nghiên cứu ngày càng đóng vai trò quan trọng trên tất cả các lĩnhvực nói chung và lĩnh vực nông nghiệp nói riêng Nhận diện thực thể đa tầngkhông chỉ giúp chúng ta trích xuất thông tin quan trọng từ những nguồn dữ liệu
Trang 21Chương 1 Giới thiệu chung
đa dạng mà còn cho phép chúng ta xây dựng mô hình phức tạp hơn, giúp dựđoán được các yêu tố ảnh hưởng đến năng suất nông nghiệp, dự báo thời tiết,
đánh giá rủi ro, và thậm chí cải thiện quản lý tổng thể của nông trại Nghiên cứu
về việc nhận diện thực thể da tang trong lĩnh vực nông nghiệp không chỉ đem lạicái nhìn toàn diện hơn về dữ liệu mà còn giúp chúng ta áp dung các giải phápthông minh, tối ưu hóa sản xuất nông nghiệp và hỗ trợ quyết định đáng kể trong
ngành này.
Tuy nhiên, bài toán cũng gặp nhiều thách thức, chẳng hạn như:
¢ Sự đa dạng và phong phú của các thực thể nông nghiệp là một trong những
van đề chính, với việc các thực thể này không chỉ đa dạng về loại hình macòn thường được gọi bằng nhiều cách khác nhau, tạo ra sự không nhất quán
và đa nghĩa trong cách gọi chúng Ví dụ, một loại cây trồng có thể được gọibằng nhiều tên khác nhau tùy thuộc vào vùng miễn, ngôn ngữ và người sửdụng, tạo ra khó khăn trong việc đồng nhất dữ liệu
© Thách thức thứ hai đến từ sự phụ thuộc mạnh mẽ vào ngữ cảnh và mối
quan hệ phức tạp giữa các thực thể nông nghiệp ở các tầng khác nhau Cácthực thể không ton tại độc lập mà thường liên kết với nhau thông qua mối
quan hệ phức tạp, ví dụ như mối quan hệ giữa một loại cây trồng và điều
kiện thời tiết, hoặc mối liên kết giữa sâu bệnh và loại đất trồng Việc hiểu rõmối quan hệ này đòi hỏi khả năng phân tích sâu và tổng hợp thông tin từnhiều nguồn khác nhau
© Thách thức thứ ba có thể đến từ sự thiếu hụt và mat cân bang của các tập
dữ liệu được gán nhãn cho bài toán Nhận diện thực thể có tên (NER) Việcxây dựng tập dữ liệu gán nhãn chính xác và đủ lớn để huấn luyện các môhình NER đa tầng trong lĩnh vực nông nghiệp thường gặp khó khăn, đặc
Trang 22Chương 1 Giới thiệu chung
biệt khi phải xử lý sự phức tạp và đa dạng của thông tin, đòi hỏi chi phí lớn,
cần có các chuyên gia đầu ngành tham gia vào quá trình gán nhãn
Khóa luận này sẽ dé xuất một phương pháp mới để giải quyết bài toán Nhận diện
thực thể đa tang, dựa trên kỹ thuật học sâu và chiến lược huấn luyện ít mẫu để
giải quyết van dé mat cân bằng dữ liệu, bao gồm ba đóng góp chính:
s® Đầu tiên, việc xây dựng một tập dtr liệu lớn chính là cột mốc quan trọng, quá
trình xây dựng kết hợp nhiều phương pháp thu thập, tiền xử lý, gán nhãn
và tăng cường dữ liệu Tập dữ liệu này không chỉ đóng vai trò là nguồn
tài nguyên quý giá cho các nhà nghiên cứu mà còn hỗ trợ cho các chuyên
gia trong ngành nông nghiệp Sự kết hợp này tạo ra một nguồn đữ liệu đađạng, phong phú và chuẩn xác, giúp tăng cường hiệu suất của các mô hình
NER trong lĩnh vực này.
© Thứ hai, việc tinh chỉnh mô hình để đạt hiệu suất cao trên tập dữ liệu dé
xuất là một bước quan trọng Điều này hướng đến mục tiêu thúc đẩy sự
phát triển của các mô hình Nested NER hiệu quả hơn và có thể được tùy
chỉnh riêng biệt để phù hợp dành riêng cho lĩnh vực nông nghiệp
se Cuối cùng, việc kết hợp chiến lược Học với ít mẫu vào quá trình huấn luyện
đem lại triển vọng đáng kể trong việc cải tiến hiệu quả mô hình Quá trìnhứng dụng chiến lược huấn luyện Học với ít mẫu giúp tối ưu hóa việc cáctình huống đữ liệu huấn luyện được gán nhãn khan hiếm Điều này làm
nổi bật tiềm năng của việc huấn luyện các mô hình lớn trong lĩnh vực Xử lýngôn ngữ tự nhiên (NLP) một cách hiệu quả với nguồn tài nguyên hạn ché,giúp chúng ta tiến xa hơn trong việc xử ly da tang thông tin nông nghiệp
một cách chính xác và linh hoạt.
Các câu hỏi nghiên cứu chính của khóa luận này là:
Trang 23Chương 1 Giới thiệu chung
1 Làm thé nào để xây dựng một tap dit liệu lớn va đáng tin cậy cho Nhận diện
thực thể đa tầng trong lĩnh vực nông nghiệp?
2 Làm thé nào để thiết kế một mô hình học sâu tối ưu, tích hợp các kiến trúc
mạng nơ-ron đa dạng và phù hợp với các thông tin từ các bai báo khoa học
trong lĩnh vực nông nghiệp, nhằm cải thiện khả năng nhận diện thực thể
đa tầng trong lĩnh vực này?
3 Làm thế nào để thực hiện việc đánh giá và so sánh hiệu suất của mô hình
chúng ta so với các phương pháp tiên tiến khác trong Nhận diện thực thể đa
tang, dựa trên nhiều tiêu chí đa dang như độ chính xác, độ bao phủ, sự đadang, và các yêu tổ quan trọng khác, để đo lường khả năng áp dụng trong
lĩnh vực nông nghiệp?
1.2 Nhận diện thực thể đa tang trong các bài báo khoa
học thuộc lĩnh vực nông nghiệp
1.2.1 Nhận diện thực thể có tên
Nhận dạng thực thể có tên (Named Entity Recognition - NER) là một nhiệm vụ
Xử lý ngôn ngữ tự nhiên (NLP) quan trọng liên quan đến xác định và phân loại
các thực thể khác nhau như cá nhân, tổ chức, địa điểm, v.v., trong văn bản phi
cấu trúc NER là nhiệm vụ đóng vai trò quan trọng trong các ứng dụng trích xuấtthông tin, đã được quan tâm nghiên cứu trên thé giới từ đầu những năm 1990
Ví dụ trong hình [1.1 có một số thực thể có tên thuộc các đối tượng thường gặp
trong văn bản và cuộc sóng hàng ngày, chẳng hạn như tên người, tên tổ chức, tên
địa danh, thời gian mà chúng ta có thể xác định được, bao gồm:
Trang 24Chương 1 Giới thiệu chung
vate || , few people outside of the company
took him seriously “I can tell you very senior CEOs of major _norP |) car companies would shake my
(Thrtin| sox) , now the co-founder and CEO of
online higher education startup Udacity, in an interview with Recode eo 5
A little , dozens of self-driving startups have cropped up while automakers
around the world clamor, wallet in hand, to secure their place in the fast-moving world of fully automated
hand and turn away because | wasn’t worth talking to,” said
transportation.
HÌNH 111: Vi du về nhận diện thực thể có tên
s Tên người: Sebastian Thrun, phóng viên Recode
© Tên tổ chức: Google, công ty ô tô lớn
s Tên địa danh: Đức, Hoa Kỳ
¢ Thời gian: 2007, 2017
Trong lĩnh vực nông nghiệp, việc nhận diện các thực thể này đóng vai trò quan
trọng để hiểu rõ hơn vẻ thông tin từ các nguồn dữ liệu đa dạng như báo cáo
nghiên cứu, dữ liệu thời tiết, thông tin về cây trồng, hay các thông tin liên quanđến quản lý nông trại, chẳng hạn như:
The incidence of crown gall disease recently has been gradually increased
DIS
FAM
HÌNH 1.2: Ví du về nhận diện thực thể có tên trong nông nghiệp
Trong ví dụ có một số thực thể được đặt tên mà chúng ta có thể xác định
được, bao gồm:
® crown-gall-disease: chỉ về một loại bệnh cây trồng - bệnh túi mật
7
Trang 25Chương 1 Giới thiệu chung
¢ Egyptian vineyards: nơi về nơi để trồng trọt - vườn nho Ai Cập
1.2.2 Nhận diện thực thể đa tầng
Nhận dạng thực thể được đặt tên lồng nhau (Nested NER) tiến thêm một bước
nữa bằng cách nhận dạng và phân loại các thực thể được lỗng vào nhau theo thứ
bậc, thể hiện sự hiểu biết phức tạp và nhiều sắc thái hơn về thông tin văn bản
(Yuan Alex và [45}), nham tim va phân loại các thực thể có tên được dé cap trong văn bản không cấu trúc theo các cấp độ khác nhau Ví du, trong hình [1.3]
bên dưới:
Secretary of HomeLand Security Tom Ridge is another career
ORG PER
PER
HÌNH 1.3: Vi dụ thực thể da tang trong ngữ cảnh thông thường.
Trong ví dụ trên, có một số thực thể đa tầng mà chúng ta có thể xác định được,bao gồm:
© Secretary of Homeland Security Tom Ridge: là một thực thể chỉ người (Person
-PER) - tên một người là Tom Bridge Bên trong thực thể này, ta có Secretary of Homeland lại là một thực thé PER khác - Cục trưởng An ninh nội địa Và sau
cùng, bên trong nó lại tồn tại Homeland Security là một thực thể tên tổ chức
(Organization - ORG) - Homeland Security chỉ phòng ban chuyên trách về
An ninh nội địa.
© Bush là một thực thể để nói về tên một người (Person - PER) Bên ngoài nó
là một thực thé PER khác: Mr.Bush - chỉ đích danh người đàn ông này tên
8
Trang 26Chương 1 Giới thiệu chung
gì Và bên ngoài cùng của 2 thực thể này là 1 thực thể chỉ người khác - một
chính trị gia.
Trong lĩnh vực nông nghiệp, việc nhận diện các thực thể lồng nhau này đặc biệt
quan trọng khi thông tin thường không chỉ đơn giản là các thực thể riêng lẻ mà
còn liên kết và phụ thuộc vào nhau, ví dụ như mối quan hệ giữa loại cây trồng và
điều kiện thời tiết, hoặc mối liên kết giữa sâu bệnh và loại đất trồng
The induced resistance was tested using I-ELISA and immunocapture
reverse transcription polymerase chain reaction (IC-RT-PCR) for
TARGET
symptomless plants were virus-free or with a Low level of virus infection.
HINH 1.4: Ví dụ về thực thé da tang trong nông nghiệp
Trong ví du[1.4|“the detection of CMV coat protein gene (cp)” là một thực thể chỉ
mục tiêu, va “CMV” là một thực thể chỉ vi sinh vật (tên một loại vi khuẩn) Điềunày tạo ra thách thức khá lớn trong việc phân biệt giữa các thực thể đa dạng nhưcây trồng, loài động vật, sâu bệnh, cỏ dại trong lĩnh vực này
1.2.3 Nhận diện thực thé đa tầng trong các bai báo khoa hoc
thuộc lĩnh vực nông nghiệp
Trong những năm gần đây, Nested NER đã thu hút được sự quan tâm đáng kể,đặc biệt là trong các lĩnh vực chuyên biệt như nông nghiệp [5] [23], trong đó việcxác định chính xác các thực thể phân cấp có thể cung cấp những hiểu biết sâu sắc
có giá trị cho việc trích xuất thông tin và biểu diễn tri thức
9
Trang 27Chương 1 Giới thiệu chung
Nhận diện thực thể đa tang trong các bài báo khoa học thuộc lĩnh vực nôngnghiệp (NER đa tầng nông nghiệp) là một bài toán trích xuất thông tin, nhằm tìm
và phân loại các thực thể có tên liên quan đến nông nghiệp được đề cập trong cácbài báo khoa học theo các cấp độ khác nhau
AGRI: B-DIS I-DIS I-DIS (e) lo) (e) lò O B-LOC
S14: Crown gall disease recently has been increased in UK
Disease Location
SCIE: B-TARGET B-TASK O_ B-MATERIAL O B-MATERIAL I-MATERIAL I-MATERIAL
S2: Sugarcane classification by Sentinel-2 and Landsat-8 time series
Target ~~ Task ° Material 33
Material
SCIE: B-TARGET I-TARGET I-TARGET B-TASK O B-METHOD I-METHOD.
AGRI: B-CRP I-CRP I-CRP lo) ° ° °
93: Dried chili pepper _ classification using artificial intelligence
Crop
Target Task Method
epper
usingApproach intelligence
HÌNH 1.5: Vi dụ về ba loại nhiệm vu con của bài toán NER
Nhiệm vụ nhận diện thực thể đa tầng có thể phân loại các thực thể thành ba loại
đặc biệt (Hinh{1.5), mỗi loại làm sáng tỏ sự phức tap về cau trúc khác nhau trong
các mién khác nhau
® Loại đầu tiên (S), các thực thể phẳng, là loại phổ biến và đơn giản nhất
[lampe-etal-2016-neural] Những thực thể này, thường gặp trong lĩnh vực
nông nghiệp, được đặc trưng bởi các khoảng văn bản không bị gián đoạn
tương ứng trực tiếp với tên các thực thể
10
Trang 28Chương 1 Giới thiệu chung
® Mặt khác, các thực thể rời rac (Sa), phổ biến trong các lĩnh vực khoa học, thể
hiện một cấu trúc phức tạp và thử thách hơn B9] Các thực thể này mang
đặc trưng được tạo bởi các chuỗi từ không liên tục tạo thành một thực thể
hoàn chỉnh, đòi hỏi các kỹ thuật nhận dạng nâng cao để giải mã ý nghĩa của
chúng một cách chính xác.
* Cuối cùng, các thực thể lồng nhau (Sa) tạo ra một lớp phức tạp bổ sung,
thường thấy ở điểm giao thoa giữa nông nghiệp và tài liệu khoa học [44].
Cấu trúc (Sa) được sử dung để trích xuất kiến thức nhằm xây dựng ban dé
kiến thức dưới dang được dé xuất trong mô hình OAK [LKC2017], [22].
Trong cấu hình nay, một thực thé bao bọc một thực thể khác, tạo ra cầu trúc
phân cấp yêu cau xử lý nhiều sắc thái Bộ ba loại thực thể này gói gon bảnchất nhiều mặt của NER, cung cấp cái nhìn sâu sắc về các mô hình ngônngữ đa dạng và sắc thái ngữ cảnh trên các miễn
Ngoài ra, phạm vi của NER đã mở rộng ra ngoài các danh mục truyền thống để
bao gồm thuc thể khoa học, dé cập dén các thực thé trong lĩnh vực khoa học, chẳng
hạn như gen, protein và bệnh tật trong các tài liệu khoa học NER lồng nhau vớicác thực thể khoa học là một nhiệm vụ đầy thách thức vì các thực thể khoa học có
thể được lồng vào nhau theo những cách phức tạp Tuy nhiên, đây là một nhiệm
vụ có giá trị vì nó có thể được sử dụng để trích xuất thông tin từ tài liệu khoa học
và xây dựng biểu đồ tri thức của miền khoa học [22].
1.2.4 Học với it mau
Chiến lược huấn luyện Hoc với it mẫu (Few-shot learning) là một chiến lược hoc
máy mạnh mé, tập trung vào việc học từ ít dir liệu huấn luyện có sẵn Thay vì yêu
cầu một lượng lớn các mẫu huấn luyện để hiểu và dự đoán, Few-shot learning
tập trung vào việc học từ một số lượng nhỏ các mẫu dữ liệu [11] Diéu nay dac
11
Trang 29Chương 1 Giới thiệu chung
biệt hữu ich trong các tình huống thực tế khi dữ liệu huấn luyện có hạn hoặc khi
thu thập dữ liệu mới là tốn kém Cách tiếp cận này đòi hỏi mô hình có khả năng
tổng quát hóa cao, có khả năng áp dụng những gì học được từ các ví dụ ít dữ liệu
vào những tên miền mới, không quen thuộc Few-shot learning đang được xem
xét rộng rãi trong lĩnh vực trí tuệ nhân tạo để giúp các mô hình học từng ngày
một hiệu quả hơn và linh hoạt hơn trong việc áp dụng kiến thức đã học vào các
bài toán mới, đặc biệt là trong lĩnh vực xử lý và phân loại hình ảnh 50].
Và trong khóa luận này, Few-shot learning cũng được sử dụng như một bước đi
tiên phong trong việc cải thiện việc phân loại các thực thể Các chiến lược đã được
chứng minh là có hiệu quả trong việc cải thiện độ chính xác của việc phân loại
tên miễn, đặc biệt là trong các tình huống có dữ liệu huấn luyện hạn chế
Few-shot training set
Chiến lược học tập vài lần hoạt động bằng cách đầu tiên tạo một tập hợp nhỏ các
mẫu dữ liệu được gắn nhãn từ mỗi miền (Hình[1.6) Những trường hợp này được
đán nhãn sau đó được sử dụng để huấn luyện một mô hình phân loại có thể được
sử dụng để phân loại các trường hợp không được gắn nhãn Chiến lược học tập
12
Trang 30Chương 1 Giới thiệu chung
với ít mẫu đữ liệu đã được đánh giá trên tập dữ liệu dé xuất, trong đó có số lượng
mẫu dữ liệu được gán nhãn và không được gán nhãn có sự chênh lệch lớn Chiến
lược học vài lần đã được chứng minh là có hiệu quả trong việc cải thiện tên miền
độ chính xác phân loại, ngay cả với một số lượng nhỏ các trường hợp được dánnhãn Điều này gợi ý rằng chiến lược học vài lần có khả năng tối thiểu hóa đáng
kể lượng dữ liệu huấn luyện cần thiết cho bài toán nhận diện thực thé đa tangtrong lĩnh vực nông nghiệp, giải quyết được việc dữ liệu nông nghiệp được dánnhãn khan hiếm và giải quyết thách thức về tài nguyên hạn chế khi huấn luyện
các mô hình lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên hiện nay.
1.3 Phạm vi để tài
Đề tài này nằm trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhằm giải quyết bài toánnhận diện thực thể đa tầng, đặc biệt là trong các bài báo khoa học thuộc lĩnh vực
nông nghiệp Khóa luận này tập trung vào các mục tiêu sau:
1 Đề xuất một tập dữ liệu mới, dành riêng cho bài toán nhận diện thực thể
đa tầng cho bài báo khoa học thuộc lĩnh vực nông nghiệp Tập dữ liệu nàyđược xây dựng bằng cách kết hợp các phương pháp thu thập, tiền xử lý, gánnhãn và tăng cường dữ liệu, nhằm đảm bảo độ lớn, độ đa dạng và độ cânbằng của các thực thể nông nghiệp ở các tầng khác nhau
2 Tinh chỉnh một mô hình hoc sâu đa tang, kết hợp các kiến trúc mạng nơ-ron
khác nhau, để nhận diện và phân loại các thực thể nông nghiệp từ các bàibáo khoa học Mô hình này cũng sử dụng các biểu diễn ngôn ngữ tiền huấnluyện, để tận dụng kiến thức tiền dé về ngôn ngữ và lĩnh vực Mục tiêu củaviệc tỉnh chỉnh mô hình là dé đạt được hiệu năng cao trên tập dữ liệu déxuất, cũng như các tập dữ liệu khác có liên quan đến lĩnh vực nông nghiệp
13
Trang 31Chương 1 Giới thiệu chung
3 Áp dụng kỹ thuật học với ít mẫu, tức học với ít dữ liệu, để cải thiện kết quả
của mô hình, nhằm đối phó với mắt cân bằng dữ liệu và thích ứng miễn với
những mẫu dữ liệu mới Kỹ thuật này giúp mô hình có khả năng học nhanh
và linh hoạt từ một số ít dir liệu được gán nhãn, và áp dung cho các dữ liệu
mới có cau trúc và ngữ cảnh khác nhau
1.4 Cấu trúc của Khóa luận
Khóa luận này được chia thành sáu phần chính, mỗi phần được thiết kế để cung
cấp cho người đọc cái nhìn tổng quan toàn diện về chủ dé:
© Chương 1- Giới thiệu chung: Phan này cung cấp thông tin tổng quan về bài
toán nhận diện thực thể có tên (NER), Nhận diện thực thể đa tầng (NestedNER) và Nhận diện thực thể da tầng trong bài báo khoa học thuộc lĩnh vựcnông nghiệp Phần này sẽ tìm cách cung cấp một cái nhìn tổng quan và toànđiện về tình trạng hiện tại của lĩnh vực này, cũng như các đánh giá của cáctài liệu về lĩnh vực này
* Chương 2 - Các nghiên cứu liên quan: Phan nay sé thảo luận và đưa ra
đánh giá về các công trình khoa học hiện có trong việc giải quyết bài toán
nhận diện thực thể đa tầng cũng như trong phạm vi bài báo khoa học thuộc
lĩnh vực nông nghiệp.
© Chương 3 - Bộ dữ liệu các thực thể thuộc miễn khoa học: Phan này sẽ cung
cấp các thông tin về bộ dữ liệu mà chúng tôi dé xuất - bộ dữ liệu các thựcthể thuộc lĩnh vực xuất bản khoa học Bên cạnh đó, phần này cũng sẽ đưa
ra các đánh giá khách quan về tính thách thức, nhất quán của bộ dữ liệu
s Chương 4 - Cơ ché Triaffine nhận dạng thực thể được đặt tên lồng nhau:
Phần này giải thích cơ chế Triaffine được dùng để kết hợp các yêu tố không
14
Trang 32Chương 1 Giới thiệu chung
đồng nhất để nâng cao hiệu quả cho bài toán nhận diện thực thể đa tang
Phần này cũng sẽ cung cấp các mô tả chỉ tiết về quá trình huấn luyện và suyluận.
© Chương 5 - Kết quả thực nghiệm: Phan này trình bày kết quả thử nghiệm
của cơ chế Triaffine và đánh giá trên bộ dữ liệu mà chúng tôi dé xuất Phần
này sẽ bao gồm phân tích kỹ lưỡng về các thí nghiệm khác nhau được tiếnhành, cũng như thảo luận về kết quả và ý nghĩa của chúng
© Chương 6 - Kết luận: Phan này tóm tắt những phát hiện của khoá luận này
và phác thảo công việc có thể thực hiện trong tương lai trong lĩnh vực này.
Phần này sẽ cung cấp một cái nhìn tổng quan về ý nghĩa của những pháthiện này, cũng như các ứng dụng tiềm năng và con đường để khám phá
thêm.
15
Trang 33Chương 2
Các nghiên cứu liên quan
Trong phần nghiên cứu liên quan của chương này, các công trình nghiên cứu vềphương pháp nhận diện thực thé đa tang sẽ được xem xét Trong những năm qua,
đã có nhiều phương pháp được đề xuất để giải quyết nhiệm vụ nhận điện thựcthể đa tầng và đối mặt với những thách thức do cấu trúc đa tang của các thực thểgây ra Các phương pháp này chủ yếu dựa trên học sâu, các hướng tiếp cận dựatrên tầng, dựa trên siêu đồ thị, dựa trên đoạn (hoặc dựa trên vùng) và các hướng
tiếp cận khác
Phương pháp dựa trên tầng thường xuyên sử dụng các kiến trúc phân cấp để
nắm bắt các mức độ khác nhau của thực thể đa tầng, trong khi các phương phápdựa trên siêu đồ thị tận dụng câu trúc siêu đồ thị để mô tả mối quan hệ phức tạp
giữa các thành phần của văn bản Ngoài ra, các nghiên cứu về nhận diện thực thể
đa tầng còn khám phá các chiến lược dựa trên đoạn, tập trung vào việc xác định
và phân loại các đoạn chứa thực thể Sự kết hợp giữa những yếu tố ngữ nghĩa
tiém ẩn, cú pháp đã tạo nên những mô hình hiệu quả, như mô hình triaffine kết
hợp với BERT embedding và cơ chế Multi-head Attention
Bằng cách tổng hợp và đánh giá sâu rộng về những nghiên cứu này, phần Các
nghiên cứu liên quan của sẽ giúp hiểu rõ hơn về cách các nhà nghiên cứu đã tiếpcận và giải quyết thách thức nhận diện thực thé da tang trong ngôn ngữ
1ó
Trang 34Chương 2 Các nghiên cứu liên quan
2.1 Các hướng tiếp cận bài toán nhận diện thực thể
đa tầng
2.1.1 Nhận diện dựa trên tang
Các phương pháp dựa trên tầng được thiết kế để xử lý các thực thể đa tầng ở
các cấp độ khác nhau bằng cách tích hợp nhiều tầng Thông qua việc sử dụng
cau trúc phân cấp, những mô hình này hiệu quả trong việc xác định và phân loại
các thực thể đa tang Các nhà nghiên cứu đã dé xuất nhiều mô hình khác nhau
dựa trên ý tưởng phân tầng này, như mô hình tìm đường đi tốt nhất trên các từ
[B7], hay thiết kế một thuật toán mới "Pyramid" [35] Đáng chú ý, mô hình
Pyramid đã thể hiện hiệu suất mạnh mẽ trên các bộ dữ liệu đánh giá nhận diện
thực thể da tang: GENIA[13], ACE[20] và NNE[25].
Mô hình Pyramid là một trong những phương pháp tiên tiến dựa trên tầng,nổi bật với khả năng xử lý các thực thể đa tầng ở nhiều cấp độ khác nhau Phương
pháp này đặc biệt được thiết kế để chia nhỏ văn bản thành các tầng và tạo ra một
cấu trúc phan cấp để xác định và phân loại các thực thé
Mô hình Pyramid hoạt động bằng cách sử dụng một kiến trúc đa tang, trong đó
mỗi tầng tương ứng với một cấp độ của thực thể (Hình b.1) Các tầng thấp hơn
có thể chứa thông tin chỉ tiết hơn về thực thể, trong khi các tang cao hơn có thểchứa thông tin tổng quan Điều này giúp mô hình chú ý đến cả các thực thể nhỏ
và lớn, tăng cường khả năng xử lý các thực thể đa tầng
Ngoài ra, mô hình Pyramid sử dụng các cơ chế attention để tập trung vào các
phần quan trọng của văn bản, đặc biệt là các khu vực chứa thực thể Các tham
số của mô hình được điều chỉnh để tối ưu hóa việc xác định thực thể ở nhiều cấp
độ, đồng thời giảm thiểu sự chồng lan va mat mát thông tin
17
Trang 35Chương 2 Các nghiên cứu liên quan
inputs: Former U.N Ambassador Jeane Kirkpatrick
labels: =ORG= ROLE =FIRST= ===NAME===
ROLE _ PER:
SEE
PER
HINH 2.1: Kết quả của mô hình Pyramid trong một câu từ bộ dữ liệu
NNE bao gồm 8 thực thể đa tầng.
Mô hình Pyramid đã được đánh giá trên nhiều bộ dữ liệu đánh giá nhận diệnthực thể đa tầng, bao gồm NNE, ACE và GENIA Kết quả thử nghiệm đã chứngminh rằng mô hình này hiệu quả trong việc xử lý các thực thể có cau trúc phức
tạp và chồng lấn, với các chỉ số đánh giá như độ chính xác, độ bao phủ và F1-score
đạt được kết quả cao (Bảng2.1| P: độ chính xác, R: độ phủ, E: độ đo F1).
Mô hình ACE-2004 ACE-2005 GENIA
om P R F PR FPR F
Wang et al.[37] 86.74 86.11 86.42 84.81 85.06 84.93 79.20 78.67 78.93
Shibuya et al [29] - - - 83.00 82.40 82.70 76.30 74.70 75.50
Pyramid 87.71 87.78 87.74 85.30 87.40 86.34 80.31 78.33 79.31
BANG 2.1: Kết quả của mô hình Pyramid và các mô hình dựa trên
tầng khác trên các bộ dữ liệu tiêu biểu.
Những thành công của mô hình Pyramid mở ra hướng nghiên cứu mới trong lĩnh
vực nhận diện thực thể đa tầng, khẳng định tính hiệu quả của các phương pháp
dựa trên tang trong xử lý thực thể da tang trong văn bản tự nhiên
18
Trang 36Chương 2 Các nghiên cứu liên quan
Phương pháp dựa trên tang trong bài toán nhận diện thực thể có cau trúc đa tang
mang lại một số ưu điểm và nhược điểm đáng chú ý
Uu điểm:
© Xử lý câu trúc đa tang: Phương pháp dựa trên tầng được thiết kế đặc biệt
để xử lý hiệu quả các thực thể có cấu trúc đa tầng, nơi mà mỗi thực thể có
thể chứa các thực thể khác Điều này giúp nắm bắt được các mối quan hệphức tạp giữa các thực thể và cấu trúc hệ thống
® Phù hợp với mô hình học sâu: Các mô hình hoc sâu, như mạng nơ-ron hồi
quy, thường có thể tích hợp tốt với phương pháp dựa trên tầng Điều này
giúp tận dụng được khả năng học các đặc trưng phức tạp và mối quan hệgiữa các thực thể
e Hiệu suất tốt trên dữ liệu đánh giá nhận diện thực thể đa tầng: Nhiều
nghiên cứu đã chỉ ra rằng phương pháp dựa trên tầng, đặc biệt là mô hình
Pyramid, thể hiện hiệu suất đáng kể trên các bộ dữ liệu đánh giá nhận diệnthực thể đa tầng, như ACE và GENIA
Nhược điểm:
© Phức tạp trong triển khai: Các phương pháp dựa trên tầng thường đòi hỏi
một lượng lớn dữ liệu đánh giá và phức tạp trong quá trình triển khai Điềunày có thể làm tăng chỉ phí tính toán và yêu cầu kỹ thuật cao
° Khả năng chấp nhận nhiễu hạn chế: Các mô hình dựa trên tang có thể ít
chấp nhận noise hơn so với một số phương pháp khác, đặc biệt là khi có sựchồng lan hoặc không rõ ràng giữa các thực thé
¢ Hiện tượng lan truyền lỗi (error propagation) và các thực thể giao nhau một
phần (overlapping): các phương pháp dựa trên tầng vẫn còn xuất hiện hiện
19
Trang 37Chương 2 Các nghiên cứu liên quan
tượng truyền lỗi từ lớp thấp tới lớp cao hơn khiến giảm độ chính xác, cùng
với việc đó là hạn chế của thuật toán trong khả năng xử lí các thực thể giao
nhau một phần
Tóm lại, phương pháp dựa trên tầng mang lại những lợi ích quan trọng trong việc
xử lý nhận điện thực thể da tầng, nhưng cũng đặt ra những thách thức về khảnăng triển khai và đào tạo Sự lựa chọn giữa ưu và nhược điểm nên được xem xét
cẩn thận tùy thuộc vào yêu cầu cụ thể của ứng dụng và tài nguyên có sẵn
2.1.2 Nhận diện dựa trên siêu đồ thị
Không giống với phương pháp dựa trên tang, các phương pháp dựa trên siêu déthị sử dụng cấu trúc siêu đồ thị để biểu diễn mối quan hệ giữa các từ và thực
thể Thay vì chia nhỏ văn bản thành các tầng, những phương pháp này tập trungvào việc xây dựng các mối quan hệ phức tạp giữa các thực thể ở các tầng khácnhau thông qua sự tương tác trực tiếp giữa chúng Các nhà nghiên cứu thường dé
xuất những mô hình sử dụng mạng nơ-ron kết hợp với siêu đồ thị như mô hình
Sequence-to-Set (Hinh{2.2) va mô hình Neural Transition-based 4|, hay kết
hợp với phương pháp gán nhãn chuỗi dựa trên truy vấn (Query-based Sequence
Labeling) [42] Những phương pháp này da chứng minh hiệu suất trong việc
nhận diện thực thể đa tang trên các bộ dữ liệu thử nghiệm như 2004,
ACE-2005 và GENIA.
Các kỹ thuật dựa trên siêu dé thị được áp dụng để mô hình hóa cấu trúc siêu
đồ thị, nơi mà các nút thể hiện thực thể và các cạnh biểu diễn mối quan hệ giữa
chúng Điều này giúp phản ánh sự liên kết ngữ nghĩa phức tạp giữa các thực thể
da tang và từ trong văn bản
Để thực hiện nhận diện thực thể da tang, các phương pháp dựa trên siêu đồ sẽxem xét mối quan hệ giữa các thực thể và từ ở mức độ đỏ thị Sự kết hợp của các
20
Trang 38Chương 2 Các nghiên cứu liên quan
HINH 2.2: Mot vi du vé ap dung siéu đồ thị giải quyết thực thể đa
tầng
đặc trưng đồ thị giúp mô hình không chỉ tập trung vào thông tin cục bộ của từngthực thể mà còn hiểu rõ mối quan hệ toàn cảnh giữa chúng
Các phương pháp dựa trên siêu dé thị đã được đánh giá trên nhiều bộ dữ liệu
thử nghiệm, bao gồm ACE-2004, ACE-2005 và GENIA (Bảng|2.2| P: độ chính xác,
R: độ phủ, F: độ đo E1) Kết quả thử nghiệm cho thấy rằng việc sử dụng cấu trúc
siêu dé đem lại hiệu suất đáng kể trong việc nhận diện thực thể đa tầng Các chỉ
số đánh giá như độ chính xác, độ bao phủ và độ đo F1 đã chứng minh sự hiệu
quả của phương pháp này đối với các thách thức cụ thể của việc xử lý thực thể
đa tầng trong ngôn ngữ tự nhiên
Mô hình ACE-2004 ACE-2005 GENIA
P R F P R F P R F
Segmental |34 78.00 72.40 75.10 76.80 72.30 74.50 77.00 73.30 75.10
RNNbased [12] 72.30 66.80 69.70 70.60 69.80 70.20
-Query-based [42] 88.15 88.30 88.23 87.61 87.33 87.40 83.34 80.78 82.03
BANG 2.2: Két qua của các mô hình dựa trên siêu đồ thị trên các bộ
dữ liệu tiêu biểu.
Phương pháp dựa trên siêu đồ thị trong bài toán nhận diện thực thể da tang manglại cả ưu điểm và nhược điểm đáng chú ý:
Ưu điểm:
© Xử lý cau trúc đa tang hiệu qua: Phương pháp dựa trên siêu đồ thị được
thiết kế để xử lý hiệu quả các thực thể có câu trúc đa tầng, nơi mà mỗi thực
21
Trang 39Chương 2 Các nghiên cứu liên quan
thể có thể chứa nhiều thực thể khác Điều này giúp mô hình có khả năng
mô phỏng các mối quan hệ phức tạp giữa các thực thể và cấu trúc hệ thống
¢ Khả năng tương tác giữa các thực thể: siêu đồ thị cho phép mô hình hóa mối
quan hệ đồng thời giữa nhiều thực thể lân cận nhau trong câu, thậm chí khichúng chồng lan Điều nay làm tăng khả năng biểu diễn các mối quan hệphức tạp và sự phụ thuộc giữa các thực thể
¢ Phù hợp với bài toán nhận diện thực thể đa tang: các phương pháp dựa trên
siêu đồ thị có thể đễ dàng biểu diễn các mối quan hệ phức tạp giữa thực thểcha và thực thể con Điều này làm cho phương pháp này thích hợp cho cácnhiệm vụ yêu cầu mô hình hóa sự đa tang của thực thể
Nhược điểm:
¢ Độ phức tạp tính toán: các phương pháp dựa trên siêu dé thị thường yêu
cầu các phép toán tính toán phức tạp hơn so với một số phương pháp khác
Điều này có thể làm tăng chỉ phí tính toán và làm chậm quá trình đào tạo
và dự đoán.
©- Doi hỏi lượng dữ liệu lớn: Để huấn luyện hiệu quả, phương pháp các phương
pháp dựa trên siêu dé thị thường cần một lượng lớn dữ liệu đánh giá Việc
này có thể là một thách thức khi tài nguyên đánh giá có hạn.
© Khả năng giải thích hạn chế: Trong một số trường hợp, khả năng giải thích
của các phương pháp dựa trên siêu đồ thị có thể bị hạn chế hơn so với một
số phương pháp khác, làm cho quá trình hiểu và giải thích mô hình trở nên
khó khăn.
® Khó khăn trong việc định nghĩa siêu dé thị: cần có sự tư van và chỉnh sửa
từ chuyên gia để có thể tạo nên một bộ định nghĩa chuẩn về ý nghĩa của các
nút và cạnh, đảm bảo moi quan hệ của chúng với nhau.
22
Trang 40Chương 2 Các nghiên cứu liên quan
Tóm lại, các phương pháp dựa trên siêu dé thị mang lại nhiều lợi ich trong việc
xử lý bài toán nhận diện thực thể da tang, nhưng cũng đi kèm với những thách
thức về tính toán và đòi hỏi lượng lớn dữ liệu Quyết định sử dụng phương phápnày nên được đưa ra dựa trên yêu cầu cụ thể của bài toán và tài nguyên có sẵn
2.1.3 Nhận diện dựa trên đoạn
Các phương pháp dựa trên đoạn cách áp dụng đơn giản nhất và sử dụng các
thuật toán đơn giản như phân loại đoạn nên được sử dụng và áp dụng rộng rãi
trong các bài toán nhận diện thực thể đa tầng gần đây
Phương pháp dựa trên đoạn tập trung vào việc xác định và phân loại các đoạn
chứa thực thể đa tằng Những phương pháp này xác định các đoạn cụ thể trong
văn bản và sử dụng các kỹ thuật như so khớp dựa trên quy tắc hoặc học máy
để phát hiện và phân loại các thực thể da tang Ý tưởng của các hướng tiếp cận
thường dựa trên các thông tin về các đoạn trong câu chứa các thực thể
Tiêu biểu nhất, nghiên cứu đã giới thiệu một phương pháp kết hợp nhiều
yếu tổ gồm thông tin từ, điểm đầu/cuối va cấu trúc triaffine để cải thiện việcnhận diện thực thể đa tầng Phương pháp này không chỉ dựa vào ngữ cảnh văn
bản mà còn tích hợp thông tin từ các khía cạnh khác nhau như cú pháp và ý
nghĩa Điều này giúp nâng cao hiệu suất bằng cách sử dụng BERT embedding và
cơ chế Multi-head Attention để tận dụng kiến thức đa dạng từ ngữ liệu đầu vào
Phương pháp này đầu tiên xác định các đoạn cụ thể trong văn bản mà chứa thông
tin về các thực thể đa tầng Đối với mỗi đoạn được xác định, các kỹ thuật như so
khớp dựa trên quy tắc hoặc học máy được áp dụng để phát hiện và phân loại
thực thể Một trong những cách giải quyết có thể được thể hiện qua Hình|2.3|(32].
Nghiên cứu đã giới thiệu một phương pháp kết hợp nhiều yếu tố và cấutrúc triaffine để cải thiện việc nhận diện thực thể đa tầng từ việc xác định đoạn
23