Khóa luận tốt nghiệp: Nhận diện thực thể đa tầng trong các bài báo khoa học thuộc lĩnh vực nông nghiệp

Ngô Quốc Hưng Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 31/12/2023 Sinh viên thực hiện: Phan Doãn Thái Bình - 20520043 Lê Phước Vĩnh Linh - 20521531 Nội dung đề tai:Mo ta chỉ tiết

Trang 1

ĐẠI HỌC QUỐC GIA

THÀNH PHÔ HO CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THONG TIN

KHOA KHOA HOC MAY TÍNH

KHÓA LUẬN CỬ NHÂN

NHÂN DIEN THUG THE DA TẦNG TRONG CAC

BAI BAO KHOA HỌC THUỘC LĨNH VỰC NONG NGHIỆP

LÊ PHƯÓC VĨNH LINH - 20521531 PHAN DOAN THÁI BÌNH - 20520043

GIẢNG VIÊN HƯỚNG DẪN:

TS NGÔ QUOC HUNG

THANH PHO HO CHi MINH, 2024

Trang 2

Hội đồng

Hội đồng bảo vệ luận án đã được thành lập dựa theo Quyết định số

ngày / / của Hiệu trưởng Trường Đại học Công nghệ Thông tin Ủy ban

này bao gồm các thầy cô xuất sắc, những người có nhiều chuyên môn và kiến

thức trong lĩnh vực nghiên cứu cụ thể có liên quan đến việc bảo vệ khóa luận Để

đảm bảo rằng tat cả các khía cạnh của việc bảo vệ khóa luận đều được giải quyết

thỏa đáng, những nhân sự sau đây đã được lựa chọn để thành lập hội đồng:

e Thành viên:

Trang 3

ĐẠI HỌC QUOC GIA TP HỒ CHi MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN 1n -e-—

TP HCM, ngay thdng ndm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

CỦA CÁN BỘ HƯỚNG DẪN

Tên khóa luận:

NHẬN DIỆN THỰC THỂ ĐA TẦNG TRONG BÀI BÁO KHOA HỌC

THUỘC LĨNH VỰC NÔNG NGHIỆP

Nhóm SV thực hiện: Cán bộ hướng dẫn:

Phan Doãn Thái Bình 20520043 TS Ngô Quốc Hưng

Lê Phước Vĩnh Linh 20521551

Đánh giá Khóa luận

1 Về cuốn báo cáo:

Số trang Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm Một số nhận xét về hình thức cuốn báo cáo:

Trang 5

ĐẠI HỌC QUOC GIA TP HỒ CHi MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN 1n -e-—

TP HCM, ngay thdng ndm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

CỦA CÁN BỘ PHẢN BIỆN

Tên khóa luận:

NHẬN DIỆN THỰC THỂ ĐA TẦNG TRONG BÀI BÁO KHOA HỌC

THUỘC LĨNH VỰC NÔNG NGHIỆP

Nhóm SV thực hiện: Cán bộ phản biện:

Phan Doãn Thái Bình 20520043

Lê Phước Vĩnh Linh 20521551

Đánh giá Khóa luận

5 Về cuốn báo cáo:

Số trang Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm Một số nhận xét về hình thức cuốn báo cáo:

Trang 7

Lời cảm ơn

Lời nói đầu tiên, chúng tôi xin bày tỏ lòng biết ơn sâu sắc nhất đến tat cả những thầy cô đã tham gia vào sự hoàn thành một cách thành công của khoá luận này.

Trước tiên và quan trọng nhất, chúng tôi xin gửi lời cảm ơn đến Tiến sĩ Ngô Quốc

Hưng và Tiến sĩ Lương Ngọc Hoàng, vì sự hướng dẫn và hỗ trợ vô giá của các thầy

trong suốt quá trình thực hiện dé tài này Thầy Ngô Quốc Hung là một người cố

vấn tuyệt vời, luôn đưa ra những lời động viện và góp ý sâu sắc đến chúng tôi,

thách thức chúng tôi suy nghĩ vượt ra ngoài khuôn khổ Chúng tôi vô cùng biết ơn

sự tận tâm và cống hiến của các thay cho dé tài này.

Chúng tôi cảm ơn các thầy/cô phản biện đã đóng góp ý kiến quý báu, những ý kiến đó đã giúp cải thiện chất lượng của khoá luận này rất nhiều.

Chúng tôi cũng xin cảm ơn gia đình và bạn bè đã ủng hộ và động viên chúng tôi

trong suốt quá trình thực hiện khoá luận.

Có thể nói, khoá luận này sẽ không thể hoàn thành được nếu thiếu sự hỗ trợ và giúp đỡ của tat cả mọi người đã được đề cập ở trên Chúng tôi xin gửi lời cảm ơn chân thành nhất tới tất cả từng người trong số họ.

Trang 8

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TÊN DE TÀI: NHẬN DIỆN THỰC THE DA TANG TRONG BÀI BAO KHOA

HỌC TRONG LĨNH VUC NONG NGHIỆP

Cán bộ hướng dẫn: TS Ngô Quốc Hưng

Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 31/12/2023

Sinh viên thực hiện:

Phan Doãn Thái Bình - 20520043

Lê Phước Vĩnh Linh - 20521531

Nội dung đề tai:(Mo ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết

quả mong đợi của đề tài)

— Mục tiêu của đề tài: Mục tiêu chính của đề tài là nghiên cứu và tìm hiểu về bài

toán Nhận diện thực thê đa tang trong bài báo khoa học thuộc lĩnh vực nông nghiệp

(Nested Named Entity Recognition from Scientific Articles in Agriculture) cùng

với các phương pháp đã được dé xuất trước đây Từ đó chúng em sé xây dựng một

bộ đữ liệu dành riêng cho lĩnh vực này góp phần như nguồn tài nguyên quý giá cho cộng đồng nghiên cứu Bên cạnh đó, nhóm cũng sẽ tìm hiểu và tinh chỉnh một mô hình state-of-the-art (SOTA) hiện nay trên bộ dữ liệu đề xuất Và sau cùng, nhóm

sẽ tích hợp phát triển một chiến lược huấn luyện mới nhằm cải thiện hiệu suất của

mô hình hiện có nhưng không đòi hỏi nguồn tài nguyên quá lớn với triển vọng chiến lược này có thé giúp các nhóm nghiên cứu nhỏ có thé áp dụng vào quá trình huấn luyện các mô hình Xử lý ngôn ngữ tự nhiên lớn hiện nay.

— Phạm vi đề tài:

+ Nghiên cứu về bài toàn nhận diện thực thể da tang: bao gồm việc tìm hiểu chỉ tiết về bài toán Nhận diện thực thé có tên, Nhận diện thực thé đa tang, ứng dụng thực tế trong lĩnh vực nông nghiệp, các thách thức của bài toán nói chung và bài

toán trong lĩnh vực nông nghiệp nói riêng.

+ Tìm hiểu các cách tiếp cận giải quyết bài toán hiện có: Nghiên cứu, phân tích

và làm rõ ưu, nhược điểm các hướng giải quyết của bài toán.

+ Đề xuất bộ dữ liệu mới: Thu thập, tiền hành đánh nhãn, đánh giá độ tin cậy của

bộ dữ liệu về thực thé đa tang trong bai báo khoa học thuộc lĩnh vực nông nghiệp.

+ Tìm hiểu mô hình và chiến lược huấn luyện thuật toán mới: Bao gồm viéc

tìm hiểu, triển khai mô hình và mô ta cụ thé về cách mô hình hoạt động Đề xuất

Trang 9

một chiên lược mới dựa trên mô hình, mô tả cụ thê về cách hoạt động của nó trong quá trình huấn luyện

+ Thử nghiệm và đánh giá: Áp dụng chiến lược mới với mô hình trên tập dữ liệu

đề xuất Đánh giá và so sánh hiệu suất của chiến lược mới với mô hình trong các trường hợp cụ thể.

— Đối tượng: Là bài toán Nhận diện thực thê đa tầng, cụ thể là trong các bài báo, tạp

chí khoa học về lĩnh vực nông nghiệp

— Phương pháp thực hiện:

+ Tìm hiểu và nghiên cứu cơ bản về Nhận diện thực thé trong bai báo khoa học

thuộc lĩnh vực nông nghiệp và các cách giải quyết hiện có.

+ Thu thập, gan nhãn và đánh giá bộ dữ liệu dé xuất.

+ Triển khai mô hình dựa trên sự hiểu biết từ nghiên cứu trước đó và kiến thức toán học và thuật toán vốn có.

+ Thử nghiệm chiến lược mới trên tập dữ liệu đề xuất và thu thập kết quả.

+ So sánh kết quả thu được từ mô hình SOTA với các bộ dữ liệu chuẩn hiện có trong bài toán thực thể đa tầng.

+ Phân tích và đánh giá hiệu suất của chiến lược mới.

— Kết quả mong đợi của đề tài:

+ Đạt được sự hiểu biết chi tiết về bai toán nhận diện thực thé đa tầng trong bải

báo khoa học thuộc lĩnh vực nông nghiệp.

+ Hiểu biết thêm về các mô hình học sâu đề giải quyết bài toán đề xuất như là cách

hoạt động, kết quả hiệu suất.

+ Phát triển chiến lược mới dé giải quyết bài toán và hy vọng chiến lược mới sẽ

đạt được kết quả tốt hơn các mô hình SOTA hiện nay với một nguồn tài nguyên

hạn chê

Từ kêt quả thu được của việc nghiên cứu dé tài, nhóm hy vọng có thê công bô một bài

báo khoa học dựa trên đê tài của khóa luận này.

Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên

tham gia)

— Tháng đầu tiên: Tìm hiểu đề tài nghiên cứu.

+ Binh và Linh cùng tìm hiểu về bài toán Nhận diện thực thé đa tang trong bài báo

khoa học thuộc lĩnh vực nông nghiệp, đọc các tài liệu, bài báo khoa học liên quan và xây

dựng hiểu biết về bài toán cũng như là chiến lược huấn luyện mới - Học với ít mẫu Tim hiểu các mô hình để giải quyết bài toán và tập trung vào một số cách tiếp cận hiệu quả trong các công trình khoa học liên quan gần đây Tìm hiểu về các tập dữ liệu chuẩn đã có

và chuẩn bị chúng dé thử nghiệm mô hình.

— Tháng thứ hai: Xây dựng bộ dữ liệu.

+ Tiến hành thu thập dữ liệu, và gán nhãn với sự đồng hành của các chuyên gia.

+ Tiến hành đánh giá về bộ dữ liệu đã đề xuất.

Trang 10

— Tháng thứ ba: Triển khai mô hình và phát triển chiến lược mới thử nghiệm và

đánh giá.

+ Triển khai mô hình đã xác định từ tháng đầu tiên, tinh chỉnh mô hình dựa trên bộ dữ

liệu đê xuât, so sánh kêt quả thu được với các mô hình hiện có.

+ Phát triên chiên lược huân luyện mới, tích hợp vào mô hình hiện có, so sánh các kêt

quả trước và sau khi áp dụng kêt hợp chiên lược Học với it mẫu.

+ Kết quả triển vọng, nhanh chóng hoàn thành bài báo khoa học và nộp tại hội nghị SOICT

2023.

— Thang cuối cùng: Hoàn thiện báo cáo và chuẩn bị trình bày.

+ Nhóm nhận được thư chấp nhận về bài báo khoa học tại hội nghị SOICT 2023.

+ Dựa trên kết quả thu được từ quá trình thực nghiệm cũng như những góp ý quý giá từ

bài báo khoa học được công nhận của nhóm, nhóm tập trung triển khai hoàn thiện khóa luận tốt nghiệp.

Xác nhận của CBHD TP HCM, ngay thang năm

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Phan Doãn Thái Bình

Ngô Quốc Hưng

Lê Phước Vĩnh Linh

Trang 11

2 Các nghiên cứu liên quan 16

2.1 Các hướng tiếp cận bài toán nhận diện thực thể đa tầng 17

2.1.1 Nhận diện dựa trên tầng AT 17

Trang 12

2.1.2 Nhận diện dựa trên siêu đồ thị 20

2.1.3 Nhận diện dựa trên đoạn - 23 2.14 Cácphương pháp khác 26

2.2 Phép biến đổi affine trong xử ly ngôn ngữ tự nhiên

3.4 Cơ chế chú ý Triaffine trong việc biểu diễn đoạn chéo

3.5 Đánh giá điểm Triaffine trong việc phân loại đoạn

4 Kết quả thực nghiệm 44

4.1 Xây dựng bộ nhãn và dữ liệu| 44

Trang 13

4.1.2 Pipeline thu thập va gan nhãn dt liệu

41.3 Đặc điểm của dữ liệu| 47

4.2 Chiến lược huấn luyện| - 494.3 Kết quả thựcnghiệm| So 51

44 Phân tchlỗi - co 54

5 Kết luận và hướng phát triển 56

51 Kếtuận @€©2Z7.@£6 é \A 56 5.2 Hướng pháttriển_ ch 57

Tài liệu tham khảo 58

Trang 14

Danh sách hình ve

Ví dụ về nhận diện thực thể có tên

Ví dụ về nhận diện thực thể có tên trong nông nghiệp

Ví dụ thực thể đa tầng trong ngữ cảnh thông thường

Ví dụ về ba loại nhiệm vụ con của bài toán NER

2.1 Kết quả của mô hình Pyramid trong một câu từ bộ dữ liệu NNE

bao gồm 8 thực thể đa tầng | 182.2 Một ví dụ về áp dụng siêu đồ thị giải quyết thực thể đa tầng.|

2.3 Tổng quan về hướng tiếp cận dựa trên đoạn để giải quyết bài toán

nhận diện thực thể đa tầng | - 242.4 Phép biến đổi Triaffine| 27

2.5 Một ví dụ về định dang IO Tagging trong việc gán nhãn thực thể.| 29

2.6 Một ví dụ về định dạng BIO Tagging trong việc gan nhãn thực thể| 30

3.1 Nhiệm vụ biểu diễn đoạn 34

Trang 15

3.2 Nhiệm vụ phân loại đoạn| 35

3.3 Kiến trúc mô hình BERT - 373.4_ Kiến trúc mô hình Bi-LSTM.| 39

3.5 Cơ chế chú ý Triaffine| Ặ ee 40

3.6 Cách tính điểm Triaffine cho một đoạn.

4.2 Chiến lược huấn luyệm|7„ đ8 50

Trang 16

Danh sách bảng

4.1 Bộ nhãn tầng 1 của SAGRI| - 45

4.2 Bộ nhãn tầng 2 củaSAGRI[ - 46

4.3 Thông kê chi tiết về các thực thể SAGRI 48

4.4 Đánh giá mô hình Triaffine trên SAGRI và GENIA 51

4.5 Đánh giá (độ đo F1) mô hình Triaffine trên mỗi nhãn của SAGRI| 52

4.6 So sánh các mô hình khác nhau trên bộ du liệu SAGRI 53

4.7 So sánh 10 nhãn bị gan sai nhiều nhất bởi mô hình 55

Trang 17

Danh mục chữ viết tắt

AGER Agricultural Entity Recognition.

BIO Beginning-Inside-Outside tagging.

IO Inside-Outside tagging.

NER Named Entity Recognition.

Nested NER Nested Named Entity Recognition.

NLP Natural Language Processing.

POS Part-Of-Speech.

Trang 18

Tóm tắt nội dung

Trong lĩnh vực nông nghiệp kỹ thuật số, khả năng đưa ra quyết định kịp thời, có

lợi nhuận và kha thi phụ thuộc vào dữ liệu nông nghiệp và dữ liệu canh tác liên

quan mà các nhà nông học sử dụng, bao gồm các nguồn văn bản như bài báo, ghi

chú từ các trang trại và báo cáo khoa học nông nghiệp Bài toán Nhận dạng thực

thể có tên (Named Entity Recognition - NER) và Nhận dạng thực thể nông nghiệp

(Agricultural Entity Recognition - AGER) tạo điều kiện cho sự hiểu biết ngữ nghĩa, cho phép xác định, phân loại chính xác các thành phần canh tác và khám phá thêm kiến thức.

Tuy nhiên, thách thức của nhận dạng thực thể có tên trong lĩnh vực nông nghiệp

là nó đòi hỏi một lượng lớn dữ liệu được chú thích, rat ton kém va mat thời gian

dé thu thập Do đó, cách tiếp cận phổ biến là hoc tập đữ liệu trong quá trình huấn luyện và kiểm tra kết quả trên dữ liệu trong thé giới thực Thật không may, cách tiếp cận này có thể không hiệu quả vì thường xảy ra trường hợp thiếu dữ liệu huấn luyện Và như chúng ta đã biết, dữ liệu đóng một vai trò quan trọng trong mọi bài toán sử dụng cách tiếp cận dựa trên mô hình máy học Bên cạnh đó là sự khác biệt lớn về ngữ cảnh giữa dữ liệu được sử dụng để đào tạo và đữ liệu trong thế giới thực, được gọi là “khoảng cách miền” Hơn thế nữa, bài toán nhận điện thực thể nông nghiệp đòi hỏi phải xác định các thực thể được đặt tên lồng nhau xuất phát từ sự phức tạp vốn có trong lĩnh vực này Thông tin liên quan thường đi qua nhiều yếu tố được kết nối với nhau thay vì tôn tại dưới dạng các thực thể biệt lập.

Ví dụ, để hiểu được một phương pháp canh tác mục tiêu có thể cần phải xác định

chính xác loại cây trồng, các chất đinh dưỡng liên quan hoặc bệnh tật — mỗi loại

tạo thành một thực thể lồng nhau trong một ngữ cảnh rộng hơn.

Do đó, việc nhận dạng thực thể nông nghiệp từ văn bản phi cấu trúc mang lại tầm quan trọng lớn cho việc truy xuất thông tin và xây dựng kiến thức trong lĩnh vực

nông nghiệp.

Trang 19

Khóa luận này (1) xây dựng bộ dữ liệu SAGRI, kết hợp một bộ nhãn mới cho AGER bao gồm các khái niệm khoa học và nông nghiệp phổ biến, được thiết lập một cách

có phương pháp thông qua chú thích Bộ nhãn này cho phép trích xuất các khái

niệm độc lập với miền từ các tóm tắt bài báo khoa học (2) Khóa luận này cũng giới

thiệu một mô hình học sâu tiên tiến với cơ chế chú ý Triaffine để trích xuất thực thể mạnh mẽ (3) Ngoài ra, nó còn trình bày một chiến lược học tập với ít mẫu nhằm tối

ưu hóa việc phân loại giữa các miễn, chủ yếu khi xử lý dir liệu đào tạo khan hiếm Đáng chú ý, chiến lược này đạt được điểm F1 cao so với mô hình cơ sở, nhắn mạnh

tiềm năng của nó trong việc cắt giảm đáng kể dữ liệu đào tạo cần thiết.

Từ khóa:

Domain Adaptation, Named Entity Recognition, Agriculture Named Entity nition, Nested Named Entity Recognition, Few-short learning.

Trang 20

Recog-Chương 1

Giới thiệu chung

1.1 Tổng quan

Nhận diện thực thể có tên (Named Entity Recognition - NER) là một bài toán

quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt là trong lĩnh vực nông nghiệp.

NER là quá trình xác định các thực thể có liên quan đến nông nghiệp, như têncây trồng, loài vật, bệnh hại, phương pháp canh tác, v.v và phân loại chúng theocác tầng khác nhau, như tên, loại, thuộc tính, v.v Không chỉ dừng lại ở các thực

thể phẳng thông thường, trong thực tế, có rất nhiều thực thể chứa đựng một thực

thể khác bên trong nó - được gọi là thực thể đa tầng Trong nông nghiệp, thông

tin thường được tạo ra từ nhiều nguồn khác nhau như cảm biến, dữ liệu thời tiết,thông tin về đất đai, sự phát triển của cây trồng, v.v Những dtr liệu này thường

không chỉ đơn thuần là dữ liệu đơn chiều mà là sự kết hợp giữa các yêu tố khác

nhau, tạo nên một mạng lưới thông tin đa tầng.

Ngày nay, với sự phát triển không ngừng của tri thức và công nghệ, việc truy xuất

và phân tích thông tin từ các nguồn kiến thức khổng 16 như các ấn phẩm khoa

học, tài liệu nghiên cứu ngày càng đóng vai trò quan trọng trên tất cả các lĩnhvực nói chung và lĩnh vực nông nghiệp nói riêng Nhận diện thực thể đa tầngkhông chỉ giúp chúng ta trích xuất thông tin quan trọng từ những nguồn dữ liệu

Trang 21

Chương 1 Giới thiệu chung

đa dạng mà còn cho phép chúng ta xây dựng mô hình phức tạp hơn, giúp dựđoán được các yêu tố ảnh hưởng đến năng suất nông nghiệp, dự báo thời tiết,

đánh giá rủi ro, và thậm chí cải thiện quản lý tổng thể của nông trại Nghiên cứu

về việc nhận diện thực thể da tang trong lĩnh vực nông nghiệp không chỉ đem lạicái nhìn toàn diện hơn về dữ liệu mà còn giúp chúng ta áp dung các giải phápthông minh, tối ưu hóa sản xuất nông nghiệp và hỗ trợ quyết định đáng kể trong

ngành này.

Tuy nhiên, bài toán cũng gặp nhiều thách thức, chẳng hạn như:

¢ Sự đa dạng và phong phú của các thực thể nông nghiệp là một trong những

van đề chính, với việc các thực thể này không chỉ đa dạng về loại hình macòn thường được gọi bằng nhiều cách khác nhau, tạo ra sự không nhất quán

và đa nghĩa trong cách gọi chúng Ví dụ, một loại cây trồng có thể được gọibằng nhiều tên khác nhau tùy thuộc vào vùng miễn, ngôn ngữ và người sửdụng, tạo ra khó khăn trong việc đồng nhất dữ liệu

quan hệ phức tạp giữa các thực thể nông nghiệp ở các tầng khác nhau Cácthực thể không ton tại độc lập mà thường liên kết với nhau thông qua mối

quan hệ phức tạp, ví dụ như mối quan hệ giữa một loại cây trồng và điều

kiện thời tiết, hoặc mối liên kết giữa sâu bệnh và loại đất trồng Việc hiểu rõmối quan hệ này đòi hỏi khả năng phân tích sâu và tổng hợp thông tin từnhiều nguồn khác nhau

dữ liệu được gán nhãn cho bài toán Nhận diện thực thể có tên (NER) Việcxây dựng tập dữ liệu gán nhãn chính xác và đủ lớn để huấn luyện các môhình NER đa tầng trong lĩnh vực nông nghiệp thường gặp khó khăn, đặc

Trang 22

biệt khi phải xử lý sự phức tạp và đa dạng của thông tin, đòi hỏi chi phí lớn,

cần có các chuyên gia đầu ngành tham gia vào quá trình gán nhãn

Khóa luận này sẽ dé xuất một phương pháp mới để giải quyết bài toán Nhận diện

thực thể đa tang, dựa trên kỹ thuật học sâu và chiến lược huấn luyện ít mẫu để

giải quyết van dé mat cân bằng dữ liệu, bao gồm ba đóng góp chính:

s® Đầu tiên, việc xây dựng một tập dtr liệu lớn chính là cột mốc quan trọng, quá

trình xây dựng kết hợp nhiều phương pháp thu thập, tiền xử lý, gán nhãn

và tăng cường dữ liệu Tập dữ liệu này không chỉ đóng vai trò là nguồn

tài nguyên quý giá cho các nhà nghiên cứu mà còn hỗ trợ cho các chuyên

gia trong ngành nông nghiệp Sự kết hợp này tạo ra một nguồn đữ liệu đađạng, phong phú và chuẩn xác, giúp tăng cường hiệu suất của các mô hình

NER trong lĩnh vực này.

xuất là một bước quan trọng Điều này hướng đến mục tiêu thúc đẩy sự

phát triển của các mô hình Nested NER hiệu quả hơn và có thể được tùy

chỉnh riêng biệt để phù hợp dành riêng cho lĩnh vực nông nghiệp

se Cuối cùng, việc kết hợp chiến lược Học với ít mẫu vào quá trình huấn luyện

đem lại triển vọng đáng kể trong việc cải tiến hiệu quả mô hình Quá trìnhứng dụng chiến lược huấn luyện Học với ít mẫu giúp tối ưu hóa việc cáctình huống đữ liệu huấn luyện được gán nhãn khan hiếm Điều này làm

nổi bật tiềm năng của việc huấn luyện các mô hình lớn trong lĩnh vực Xử lýngôn ngữ tự nhiên (NLP) một cách hiệu quả với nguồn tài nguyên hạn ché,giúp chúng ta tiến xa hơn trong việc xử ly da tang thông tin nông nghiệp

một cách chính xác và linh hoạt.

Các câu hỏi nghiên cứu chính của khóa luận này là:

Trang 23

1 Làm thé nào để xây dựng một tap dit liệu lớn va đáng tin cậy cho Nhận diện

thực thể đa tầng trong lĩnh vực nông nghiệp?

2 Làm thé nào để thiết kế một mô hình học sâu tối ưu, tích hợp các kiến trúc

mạng nơ-ron đa dạng và phù hợp với các thông tin từ các bai báo khoa học

trong lĩnh vực nông nghiệp, nhằm cải thiện khả năng nhận diện thực thể

đa tầng trong lĩnh vực này?

3 Làm thế nào để thực hiện việc đánh giá và so sánh hiệu suất của mô hình

chúng ta so với các phương pháp tiên tiến khác trong Nhận diện thực thể đa

tang, dựa trên nhiều tiêu chí đa dang như độ chính xác, độ bao phủ, sự đadang, và các yêu tổ quan trọng khác, để đo lường khả năng áp dụng trong

lĩnh vực nông nghiệp?

1.2 Nhận diện thực thể đa tang trong các bài báo khoa

học thuộc lĩnh vực nông nghiệp

1.2.1 Nhận diện thực thể có tên

Nhận dạng thực thể có tên (Named Entity Recognition - NER) là một nhiệm vụ

Xử lý ngôn ngữ tự nhiên (NLP) quan trọng liên quan đến xác định và phân loại

các thực thể khác nhau như cá nhân, tổ chức, địa điểm, v.v., trong văn bản phi

cấu trúc NER là nhiệm vụ đóng vai trò quan trọng trong các ứng dụng trích xuấtthông tin, đã được quan tâm nghiên cứu trên thé giới từ đầu những năm 1990

Ví dụ trong hình [1.1 có một số thực thể có tên thuộc các đối tượng thường gặp

trong văn bản và cuộc sóng hàng ngày, chẳng hạn như tên người, tên tổ chức, tên

địa danh, thời gian mà chúng ta có thể xác định được, bao gồm:

Trang 24

vate || , few people outside of the company

took him seriously “I can tell you very senior CEOs of major _norP |) car companies would shake my

(Thrtin| sox) , now the co-founder and CEO of

online higher education startup Udacity, in an interview with Recode eo 5

A little , dozens of self-driving startups have cropped up while automakers

around the world clamor, wallet in hand, to secure their place in the fast-moving world of fully automated

hand and turn away because | wasn’t worth talking to,” said

transportation.

HÌNH 111: Vi du về nhận diện thực thể có tên

s Tên người: Sebastian Thrun, phóng viên Recode

s Tên địa danh: Đức, Hoa Kỳ

¢ Thời gian: 2007, 2017

Trong lĩnh vực nông nghiệp, việc nhận diện các thực thể này đóng vai trò quan

trọng để hiểu rõ hơn vẻ thông tin từ các nguồn dữ liệu đa dạng như báo cáo

nghiên cứu, dữ liệu thời tiết, thông tin về cây trồng, hay các thông tin liên quanđến quản lý nông trại, chẳng hạn như:

The incidence of crown gall disease recently has been gradually increased

DIS

FAM

HÌNH 1.2: Ví du về nhận diện thực thể có tên trong nông nghiệp

Trong ví dụ có một số thực thể được đặt tên mà chúng ta có thể xác định

được, bao gồm:

® crown-gall-disease: chỉ về một loại bệnh cây trồng - bệnh túi mật

7

Trang 25

¢ Egyptian vineyards: nơi về nơi để trồng trọt - vườn nho Ai Cập

1.2.2 Nhận diện thực thể đa tầng

Nhận dạng thực thể được đặt tên lồng nhau (Nested NER) tiến thêm một bước

nữa bằng cách nhận dạng và phân loại các thực thể được lỗng vào nhau theo thứ

bậc, thể hiện sự hiểu biết phức tạp và nhiều sắc thái hơn về thông tin văn bản

(Yuan Alex và [45}), nham tim va phân loại các thực thể có tên được dé cap trong văn bản không cấu trúc theo các cấp độ khác nhau Ví du, trong hình [1.3]

bên dưới:

Secretary of HomeLand Security Tom Ridge is another career

ORG PER

PER

HÌNH 1.3: Vi dụ thực thể da tang trong ngữ cảnh thông thường.

Trong ví dụ trên, có một số thực thể đa tầng mà chúng ta có thể xác định được,bao gồm:

-PER) - tên một người là Tom Bridge Bên trong thực thể này, ta có Secretary of Homeland lại là một thực thé PER khác - Cục trưởng An ninh nội địa Và sau

cùng, bên trong nó lại tồn tại Homeland Security là một thực thể tên tổ chức

(Organization - ORG) - Homeland Security chỉ phòng ban chuyên trách về

An ninh nội địa.

là một thực thé PER khác: Mr.Bush - chỉ đích danh người đàn ông này tên

8

Trang 26

gì Và bên ngoài cùng của 2 thực thể này là 1 thực thể chỉ người khác - một

chính trị gia.

Trong lĩnh vực nông nghiệp, việc nhận diện các thực thể lồng nhau này đặc biệt

quan trọng khi thông tin thường không chỉ đơn giản là các thực thể riêng lẻ mà

còn liên kết và phụ thuộc vào nhau, ví dụ như mối quan hệ giữa loại cây trồng và

điều kiện thời tiết, hoặc mối liên kết giữa sâu bệnh và loại đất trồng

The induced resistance was tested using I-ELISA and immunocapture

reverse transcription polymerase chain reaction (IC-RT-PCR) for

TARGET

symptomless plants were virus-free or with a Low level of virus infection.

HINH 1.4: Ví dụ về thực thé da tang trong nông nghiệp

Trong ví du[1.4|“the detection of CMV coat protein gene (cp)” là một thực thể chỉ

mục tiêu, va “CMV” là một thực thể chỉ vi sinh vật (tên một loại vi khuẩn) Điềunày tạo ra thách thức khá lớn trong việc phân biệt giữa các thực thể đa dạng nhưcây trồng, loài động vật, sâu bệnh, cỏ dại trong lĩnh vực này

1.2.3 Nhận diện thực thé đa tầng trong các bai báo khoa hoc

thuộc lĩnh vực nông nghiệp

Trong những năm gần đây, Nested NER đã thu hút được sự quan tâm đáng kể,đặc biệt là trong các lĩnh vực chuyên biệt như nông nghiệp [5] [23], trong đó việcxác định chính xác các thực thể phân cấp có thể cung cấp những hiểu biết sâu sắc

có giá trị cho việc trích xuất thông tin và biểu diễn tri thức

9

Trang 27

Nhận diện thực thể đa tang trong các bài báo khoa học thuộc lĩnh vực nôngnghiệp (NER đa tầng nông nghiệp) là một bài toán trích xuất thông tin, nhằm tìm

và phân loại các thực thể có tên liên quan đến nông nghiệp được đề cập trong cácbài báo khoa học theo các cấp độ khác nhau

AGRI: B-DIS I-DIS I-DIS (e) lo) (e) lò O B-LOC

S14: Crown gall disease recently has been increased in UK

Disease Location

SCIE: B-TARGET B-TASK O_ B-MATERIAL O B-MATERIAL I-MATERIAL I-MATERIAL

S2: Sugarcane classification by Sentinel-2 and Landsat-8 time series

Target ~~ Task ° Material 33

Material

SCIE: B-TARGET I-TARGET I-TARGET B-TASK O B-METHOD I-METHOD.

AGRI: B-CRP I-CRP I-CRP lo) ° ° °

93: Dried chili pepper _ classification using artificial intelligence

Crop

Target Task Method

epper

usingApproach intelligence

HÌNH 1.5: Vi dụ về ba loại nhiệm vu con của bài toán NER

Nhiệm vụ nhận diện thực thể đa tầng có thể phân loại các thực thể thành ba loại

đặc biệt (Hinh{1.5), mỗi loại làm sáng tỏ sự phức tap về cau trúc khác nhau trong

các mién khác nhau

® Loại đầu tiên (S), các thực thể phẳng, là loại phổ biến và đơn giản nhất

[lampe-etal-2016-neural] Những thực thể này, thường gặp trong lĩnh vực

nông nghiệp, được đặc trưng bởi các khoảng văn bản không bị gián đoạn

tương ứng trực tiếp với tên các thực thể

10

Trang 28

® Mặt khác, các thực thể rời rac (Sa), phổ biến trong các lĩnh vực khoa học, thể

hiện một cấu trúc phức tạp và thử thách hơn B9] Các thực thể này mang

đặc trưng được tạo bởi các chuỗi từ không liên tục tạo thành một thực thể

hoàn chỉnh, đòi hỏi các kỹ thuật nhận dạng nâng cao để giải mã ý nghĩa của

chúng một cách chính xác.

* Cuối cùng, các thực thể lồng nhau (Sa) tạo ra một lớp phức tạp bổ sung,

thường thấy ở điểm giao thoa giữa nông nghiệp và tài liệu khoa học [44].

Cấu trúc (Sa) được sử dung để trích xuất kiến thức nhằm xây dựng ban dé

kiến thức dưới dang được dé xuất trong mô hình OAK [LKC2017], [22].

Trong cấu hình nay, một thực thé bao bọc một thực thể khác, tạo ra cầu trúc

phân cấp yêu cau xử lý nhiều sắc thái Bộ ba loại thực thể này gói gon bảnchất nhiều mặt của NER, cung cấp cái nhìn sâu sắc về các mô hình ngônngữ đa dạng và sắc thái ngữ cảnh trên các miễn

Ngoài ra, phạm vi của NER đã mở rộng ra ngoài các danh mục truyền thống để

bao gồm thuc thể khoa học, dé cập dén các thực thé trong lĩnh vực khoa học, chẳng

hạn như gen, protein và bệnh tật trong các tài liệu khoa học NER lồng nhau vớicác thực thể khoa học là một nhiệm vụ đầy thách thức vì các thực thể khoa học có

thể được lồng vào nhau theo những cách phức tạp Tuy nhiên, đây là một nhiệm

vụ có giá trị vì nó có thể được sử dụng để trích xuất thông tin từ tài liệu khoa học

và xây dựng biểu đồ tri thức của miền khoa học [22].

1.2.4 Học với it mau

Chiến lược huấn luyện Hoc với it mẫu (Few-shot learning) là một chiến lược hoc

máy mạnh mé, tập trung vào việc học từ ít dir liệu huấn luyện có sẵn Thay vì yêu

cầu một lượng lớn các mẫu huấn luyện để hiểu và dự đoán, Few-shot learning

tập trung vào việc học từ một số lượng nhỏ các mẫu dữ liệu [11] Diéu nay dac

11

Trang 29

biệt hữu ich trong các tình huống thực tế khi dữ liệu huấn luyện có hạn hoặc khi

thu thập dữ liệu mới là tốn kém Cách tiếp cận này đòi hỏi mô hình có khả năng

tổng quát hóa cao, có khả năng áp dụng những gì học được từ các ví dụ ít dữ liệu

vào những tên miền mới, không quen thuộc Few-shot learning đang được xem

xét rộng rãi trong lĩnh vực trí tuệ nhân tạo để giúp các mô hình học từng ngày

một hiệu quả hơn và linh hoạt hơn trong việc áp dụng kiến thức đã học vào các

bài toán mới, đặc biệt là trong lĩnh vực xử lý và phân loại hình ảnh 50].

Và trong khóa luận này, Few-shot learning cũng được sử dụng như một bước đi

tiên phong trong việc cải thiện việc phân loại các thực thể Các chiến lược đã được

chứng minh là có hiệu quả trong việc cải thiện độ chính xác của việc phân loại

tên miễn, đặc biệt là trong các tình huống có dữ liệu huấn luyện hạn chế

Few-shot training set

Chiến lược học tập vài lần hoạt động bằng cách đầu tiên tạo một tập hợp nhỏ các

mẫu dữ liệu được gắn nhãn từ mỗi miền (Hình[1.6) Những trường hợp này được

đán nhãn sau đó được sử dụng để huấn luyện một mô hình phân loại có thể được

sử dụng để phân loại các trường hợp không được gắn nhãn Chiến lược học tập

12

Trang 30

với ít mẫu đữ liệu đã được đánh giá trên tập dữ liệu dé xuất, trong đó có số lượng

mẫu dữ liệu được gán nhãn và không được gán nhãn có sự chênh lệch lớn Chiến

lược học vài lần đã được chứng minh là có hiệu quả trong việc cải thiện tên miền

độ chính xác phân loại, ngay cả với một số lượng nhỏ các trường hợp được dánnhãn Điều này gợi ý rằng chiến lược học vài lần có khả năng tối thiểu hóa đáng

kể lượng dữ liệu huấn luyện cần thiết cho bài toán nhận diện thực thé đa tangtrong lĩnh vực nông nghiệp, giải quyết được việc dữ liệu nông nghiệp được dánnhãn khan hiếm và giải quyết thách thức về tài nguyên hạn chế khi huấn luyện

các mô hình lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên hiện nay.

1.3 Phạm vi để tài

Đề tài này nằm trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhằm giải quyết bài toánnhận diện thực thể đa tầng, đặc biệt là trong các bài báo khoa học thuộc lĩnh vực

nông nghiệp Khóa luận này tập trung vào các mục tiêu sau:

1 Đề xuất một tập dữ liệu mới, dành riêng cho bài toán nhận diện thực thể

đa tầng cho bài báo khoa học thuộc lĩnh vực nông nghiệp Tập dữ liệu nàyđược xây dựng bằng cách kết hợp các phương pháp thu thập, tiền xử lý, gánnhãn và tăng cường dữ liệu, nhằm đảm bảo độ lớn, độ đa dạng và độ cânbằng của các thực thể nông nghiệp ở các tầng khác nhau

2 Tinh chỉnh một mô hình hoc sâu đa tang, kết hợp các kiến trúc mạng nơ-ron

khác nhau, để nhận diện và phân loại các thực thể nông nghiệp từ các bàibáo khoa học Mô hình này cũng sử dụng các biểu diễn ngôn ngữ tiền huấnluyện, để tận dụng kiến thức tiền dé về ngôn ngữ và lĩnh vực Mục tiêu củaviệc tỉnh chỉnh mô hình là dé đạt được hiệu năng cao trên tập dữ liệu déxuất, cũng như các tập dữ liệu khác có liên quan đến lĩnh vực nông nghiệp

13

Trang 31

3 Áp dụng kỹ thuật học với ít mẫu, tức học với ít dữ liệu, để cải thiện kết quả

của mô hình, nhằm đối phó với mắt cân bằng dữ liệu và thích ứng miễn với

những mẫu dữ liệu mới Kỹ thuật này giúp mô hình có khả năng học nhanh

và linh hoạt từ một số ít dir liệu được gán nhãn, và áp dung cho các dữ liệu

mới có cau trúc và ngữ cảnh khác nhau

1.4 Cấu trúc của Khóa luận

Khóa luận này được chia thành sáu phần chính, mỗi phần được thiết kế để cung

cấp cho người đọc cái nhìn tổng quan toàn diện về chủ dé:

toán nhận diện thực thể có tên (NER), Nhận diện thực thể đa tầng (NestedNER) và Nhận diện thực thể da tầng trong bài báo khoa học thuộc lĩnh vựcnông nghiệp Phần này sẽ tìm cách cung cấp một cái nhìn tổng quan và toànđiện về tình trạng hiện tại của lĩnh vực này, cũng như các đánh giá của cáctài liệu về lĩnh vực này

* Chương 2 - Các nghiên cứu liên quan: Phan nay sé thảo luận và đưa ra

đánh giá về các công trình khoa học hiện có trong việc giải quyết bài toán

nhận diện thực thể đa tầng cũng như trong phạm vi bài báo khoa học thuộc

lĩnh vực nông nghiệp.

cấp các thông tin về bộ dữ liệu mà chúng tôi dé xuất - bộ dữ liệu các thựcthể thuộc lĩnh vực xuất bản khoa học Bên cạnh đó, phần này cũng sẽ đưa

ra các đánh giá khách quan về tính thách thức, nhất quán của bộ dữ liệu

s Chương 4 - Cơ ché Triaffine nhận dạng thực thể được đặt tên lồng nhau:

Phần này giải thích cơ chế Triaffine được dùng để kết hợp các yêu tố không

14

Trang 32

đồng nhất để nâng cao hiệu quả cho bài toán nhận diện thực thể đa tang

Phần này cũng sẽ cung cấp các mô tả chỉ tiết về quá trình huấn luyện và suyluận.

của cơ chế Triaffine và đánh giá trên bộ dữ liệu mà chúng tôi dé xuất Phần

này sẽ bao gồm phân tích kỹ lưỡng về các thí nghiệm khác nhau được tiếnhành, cũng như thảo luận về kết quả và ý nghĩa của chúng

và phác thảo công việc có thể thực hiện trong tương lai trong lĩnh vực này.

Phần này sẽ cung cấp một cái nhìn tổng quan về ý nghĩa của những pháthiện này, cũng như các ứng dụng tiềm năng và con đường để khám phá

thêm.

15

Trang 33

Chương 2

Các nghiên cứu liên quan

Trong phần nghiên cứu liên quan của chương này, các công trình nghiên cứu vềphương pháp nhận diện thực thé đa tang sẽ được xem xét Trong những năm qua,

đã có nhiều phương pháp được đề xuất để giải quyết nhiệm vụ nhận điện thựcthể đa tầng và đối mặt với những thách thức do cấu trúc đa tang của các thực thểgây ra Các phương pháp này chủ yếu dựa trên học sâu, các hướng tiếp cận dựatrên tầng, dựa trên siêu đồ thị, dựa trên đoạn (hoặc dựa trên vùng) và các hướng

tiếp cận khác

Phương pháp dựa trên tầng thường xuyên sử dụng các kiến trúc phân cấp để

nắm bắt các mức độ khác nhau của thực thể đa tầng, trong khi các phương phápdựa trên siêu đồ thị tận dụng câu trúc siêu đồ thị để mô tả mối quan hệ phức tạp

giữa các thành phần của văn bản Ngoài ra, các nghiên cứu về nhận diện thực thể

đa tầng còn khám phá các chiến lược dựa trên đoạn, tập trung vào việc xác định

và phân loại các đoạn chứa thực thể Sự kết hợp giữa những yếu tố ngữ nghĩa

tiém ẩn, cú pháp đã tạo nên những mô hình hiệu quả, như mô hình triaffine kết

hợp với BERT embedding và cơ chế Multi-head Attention

Bằng cách tổng hợp và đánh giá sâu rộng về những nghiên cứu này, phần Các

nghiên cứu liên quan của sẽ giúp hiểu rõ hơn về cách các nhà nghiên cứu đã tiếpcận và giải quyết thách thức nhận diện thực thé da tang trong ngôn ngữ

1ó

Trang 34

Chương 2 Các nghiên cứu liên quan

2.1 Các hướng tiếp cận bài toán nhận diện thực thể

đa tầng

2.1.1 Nhận diện dựa trên tang

Các phương pháp dựa trên tầng được thiết kế để xử lý các thực thể đa tầng ở

các cấp độ khác nhau bằng cách tích hợp nhiều tầng Thông qua việc sử dụng

cau trúc phân cấp, những mô hình này hiệu quả trong việc xác định và phân loại

các thực thể đa tang Các nhà nghiên cứu đã dé xuất nhiều mô hình khác nhau

dựa trên ý tưởng phân tầng này, như mô hình tìm đường đi tốt nhất trên các từ

[B7], hay thiết kế một thuật toán mới "Pyramid" [35] Đáng chú ý, mô hình

Pyramid đã thể hiện hiệu suất mạnh mẽ trên các bộ dữ liệu đánh giá nhận diện

thực thể da tang: GENIA[13], ACE[20] và NNE[25].

Mô hình Pyramid là một trong những phương pháp tiên tiến dựa trên tầng,nổi bật với khả năng xử lý các thực thể đa tầng ở nhiều cấp độ khác nhau Phương

pháp này đặc biệt được thiết kế để chia nhỏ văn bản thành các tầng và tạo ra một

cấu trúc phan cấp để xác định và phân loại các thực thé

Mô hình Pyramid hoạt động bằng cách sử dụng một kiến trúc đa tang, trong đó

mỗi tầng tương ứng với một cấp độ của thực thể (Hình b.1) Các tầng thấp hơn

có thể chứa thông tin chỉ tiết hơn về thực thể, trong khi các tang cao hơn có thểchứa thông tin tổng quan Điều này giúp mô hình chú ý đến cả các thực thể nhỏ

và lớn, tăng cường khả năng xử lý các thực thể đa tầng

Ngoài ra, mô hình Pyramid sử dụng các cơ chế attention để tập trung vào các

phần quan trọng của văn bản, đặc biệt là các khu vực chứa thực thể Các tham

số của mô hình được điều chỉnh để tối ưu hóa việc xác định thực thể ở nhiều cấp

độ, đồng thời giảm thiểu sự chồng lan va mat mát thông tin

17

Trang 35

inputs: Former U.N Ambassador Jeane Kirkpatrick

labels: =ORG= ROLE =FIRST= ===NAME===

ROLE _ PER:

SEE

PER

HINH 2.1: Kết quả của mô hình Pyramid trong một câu từ bộ dữ liệu

NNE bao gồm 8 thực thể đa tầng.

Mô hình Pyramid đã được đánh giá trên nhiều bộ dữ liệu đánh giá nhận diệnthực thể đa tầng, bao gồm NNE, ACE và GENIA Kết quả thử nghiệm đã chứngminh rằng mô hình này hiệu quả trong việc xử lý các thực thể có cau trúc phức

tạp và chồng lấn, với các chỉ số đánh giá như độ chính xác, độ bao phủ và F1-score

đạt được kết quả cao (Bảng2.1| P: độ chính xác, R: độ phủ, E: độ đo F1).

Mô hình ACE-2004 ACE-2005 GENIA

om P R F PR FPR F

Wang et al.[37] 86.74 86.11 86.42 84.81 85.06 84.93 79.20 78.67 78.93

Shibuya et al [29] - - - 83.00 82.40 82.70 76.30 74.70 75.50

Pyramid 87.71 87.78 87.74 85.30 87.40 86.34 80.31 78.33 79.31

BANG 2.1: Kết quả của mô hình Pyramid và các mô hình dựa trên

tầng khác trên các bộ dữ liệu tiêu biểu.

Những thành công của mô hình Pyramid mở ra hướng nghiên cứu mới trong lĩnh

vực nhận diện thực thể đa tầng, khẳng định tính hiệu quả của các phương pháp

dựa trên tang trong xử lý thực thể da tang trong văn bản tự nhiên

18

Trang 36

Phương pháp dựa trên tang trong bài toán nhận diện thực thể có cau trúc đa tang

mang lại một số ưu điểm và nhược điểm đáng chú ý

Uu điểm:

để xử lý hiệu quả các thực thể có cấu trúc đa tầng, nơi mà mỗi thực thể có

thể chứa các thực thể khác Điều này giúp nắm bắt được các mối quan hệphức tạp giữa các thực thể và cấu trúc hệ thống

® Phù hợp với mô hình học sâu: Các mô hình hoc sâu, như mạng nơ-ron hồi

quy, thường có thể tích hợp tốt với phương pháp dựa trên tầng Điều này

giúp tận dụng được khả năng học các đặc trưng phức tạp và mối quan hệgiữa các thực thể

e Hiệu suất tốt trên dữ liệu đánh giá nhận diện thực thể đa tầng: Nhiều

nghiên cứu đã chỉ ra rằng phương pháp dựa trên tầng, đặc biệt là mô hình

Pyramid, thể hiện hiệu suất đáng kể trên các bộ dữ liệu đánh giá nhận diệnthực thể đa tầng, như ACE và GENIA

Nhược điểm:

một lượng lớn dữ liệu đánh giá và phức tạp trong quá trình triển khai Điềunày có thể làm tăng chỉ phí tính toán và yêu cầu kỹ thuật cao

° Khả năng chấp nhận nhiễu hạn chế: Các mô hình dựa trên tang có thể ít

chấp nhận noise hơn so với một số phương pháp khác, đặc biệt là khi có sựchồng lan hoặc không rõ ràng giữa các thực thé

¢ Hiện tượng lan truyền lỗi (error propagation) và các thực thể giao nhau một

phần (overlapping): các phương pháp dựa trên tầng vẫn còn xuất hiện hiện

19

Trang 37

tượng truyền lỗi từ lớp thấp tới lớp cao hơn khiến giảm độ chính xác, cùng

với việc đó là hạn chế của thuật toán trong khả năng xử lí các thực thể giao

nhau một phần

Tóm lại, phương pháp dựa trên tầng mang lại những lợi ích quan trọng trong việc

xử lý nhận điện thực thể da tầng, nhưng cũng đặt ra những thách thức về khảnăng triển khai và đào tạo Sự lựa chọn giữa ưu và nhược điểm nên được xem xét

cẩn thận tùy thuộc vào yêu cầu cụ thể của ứng dụng và tài nguyên có sẵn

2.1.2 Nhận diện dựa trên siêu đồ thị

Không giống với phương pháp dựa trên tang, các phương pháp dựa trên siêu déthị sử dụng cấu trúc siêu đồ thị để biểu diễn mối quan hệ giữa các từ và thực

thể Thay vì chia nhỏ văn bản thành các tầng, những phương pháp này tập trungvào việc xây dựng các mối quan hệ phức tạp giữa các thực thể ở các tầng khácnhau thông qua sự tương tác trực tiếp giữa chúng Các nhà nghiên cứu thường dé

xuất những mô hình sử dụng mạng nơ-ron kết hợp với siêu đồ thị như mô hình

Sequence-to-Set (Hinh{2.2) va mô hình Neural Transition-based 4|, hay kết

hợp với phương pháp gán nhãn chuỗi dựa trên truy vấn (Query-based Sequence

Labeling) [42] Những phương pháp này da chứng minh hiệu suất trong việc

nhận diện thực thể đa tang trên các bộ dữ liệu thử nghiệm như 2004,

ACE-2005 và GENIA.

Các kỹ thuật dựa trên siêu dé thị được áp dụng để mô hình hóa cấu trúc siêu

đồ thị, nơi mà các nút thể hiện thực thể và các cạnh biểu diễn mối quan hệ giữa

chúng Điều này giúp phản ánh sự liên kết ngữ nghĩa phức tạp giữa các thực thể

da tang và từ trong văn bản

Để thực hiện nhận diện thực thể da tang, các phương pháp dựa trên siêu đồ sẽxem xét mối quan hệ giữa các thực thể và từ ở mức độ đỏ thị Sự kết hợp của các

20

Trang 38

HINH 2.2: Mot vi du vé ap dung siéu đồ thị giải quyết thực thể đa

tầng

đặc trưng đồ thị giúp mô hình không chỉ tập trung vào thông tin cục bộ của từngthực thể mà còn hiểu rõ mối quan hệ toàn cảnh giữa chúng

Các phương pháp dựa trên siêu dé thị đã được đánh giá trên nhiều bộ dữ liệu

thử nghiệm, bao gồm ACE-2004, ACE-2005 và GENIA (Bảng|2.2| P: độ chính xác,

R: độ phủ, F: độ đo E1) Kết quả thử nghiệm cho thấy rằng việc sử dụng cấu trúc

siêu dé đem lại hiệu suất đáng kể trong việc nhận diện thực thể đa tầng Các chỉ

số đánh giá như độ chính xác, độ bao phủ và độ đo F1 đã chứng minh sự hiệu

quả của phương pháp này đối với các thách thức cụ thể của việc xử lý thực thể

đa tầng trong ngôn ngữ tự nhiên

Mô hình ACE-2004 ACE-2005 GENIA

P R F P R F P R F

Segmental |34 78.00 72.40 75.10 76.80 72.30 74.50 77.00 73.30 75.10

RNNbased [12] 72.30 66.80 69.70 70.60 69.80 70.20

-Query-based [42] 88.15 88.30 88.23 87.61 87.33 87.40 83.34 80.78 82.03

BANG 2.2: Két qua của các mô hình dựa trên siêu đồ thị trên các bộ

dữ liệu tiêu biểu.

Phương pháp dựa trên siêu đồ thị trong bài toán nhận diện thực thể da tang manglại cả ưu điểm và nhược điểm đáng chú ý:

Ưu điểm:

thiết kế để xử lý hiệu quả các thực thể có câu trúc đa tầng, nơi mà mỗi thực

21

Trang 39

thể có thể chứa nhiều thực thể khác Điều này giúp mô hình có khả năng

mô phỏng các mối quan hệ phức tạp giữa các thực thể và cấu trúc hệ thống

¢ Khả năng tương tác giữa các thực thể: siêu đồ thị cho phép mô hình hóa mối

quan hệ đồng thời giữa nhiều thực thể lân cận nhau trong câu, thậm chí khichúng chồng lan Điều nay làm tăng khả năng biểu diễn các mối quan hệphức tạp và sự phụ thuộc giữa các thực thể

¢ Phù hợp với bài toán nhận diện thực thể đa tang: các phương pháp dựa trên

siêu đồ thị có thể đễ dàng biểu diễn các mối quan hệ phức tạp giữa thực thểcha và thực thể con Điều này làm cho phương pháp này thích hợp cho cácnhiệm vụ yêu cầu mô hình hóa sự đa tang của thực thể

Nhược điểm:

¢ Độ phức tạp tính toán: các phương pháp dựa trên siêu dé thị thường yêu

cầu các phép toán tính toán phức tạp hơn so với một số phương pháp khác

Điều này có thể làm tăng chỉ phí tính toán và làm chậm quá trình đào tạo

và dự đoán.

pháp dựa trên siêu dé thị thường cần một lượng lớn dữ liệu đánh giá Việc

này có thể là một thách thức khi tài nguyên đánh giá có hạn.

của các phương pháp dựa trên siêu đồ thị có thể bị hạn chế hơn so với một

số phương pháp khác, làm cho quá trình hiểu và giải thích mô hình trở nên

khó khăn.

® Khó khăn trong việc định nghĩa siêu dé thị: cần có sự tư van và chỉnh sửa

từ chuyên gia để có thể tạo nên một bộ định nghĩa chuẩn về ý nghĩa của các

nút và cạnh, đảm bảo moi quan hệ của chúng với nhau.

22

Trang 40

Tóm lại, các phương pháp dựa trên siêu dé thị mang lại nhiều lợi ich trong việc

xử lý bài toán nhận diện thực thể da tang, nhưng cũng đi kèm với những thách

thức về tính toán và đòi hỏi lượng lớn dữ liệu Quyết định sử dụng phương phápnày nên được đưa ra dựa trên yêu cầu cụ thể của bài toán và tài nguyên có sẵn

2.1.3 Nhận diện dựa trên đoạn

Các phương pháp dựa trên đoạn cách áp dụng đơn giản nhất và sử dụng các

thuật toán đơn giản như phân loại đoạn nên được sử dụng và áp dụng rộng rãi

trong các bài toán nhận diện thực thể đa tầng gần đây

Phương pháp dựa trên đoạn tập trung vào việc xác định và phân loại các đoạn

chứa thực thể đa tằng Những phương pháp này xác định các đoạn cụ thể trong

văn bản và sử dụng các kỹ thuật như so khớp dựa trên quy tắc hoặc học máy

để phát hiện và phân loại các thực thể da tang Ý tưởng của các hướng tiếp cận

thường dựa trên các thông tin về các đoạn trong câu chứa các thực thể

Tiêu biểu nhất, nghiên cứu đã giới thiệu một phương pháp kết hợp nhiều

yếu tổ gồm thông tin từ, điểm đầu/cuối va cấu trúc triaffine để cải thiện việcnhận diện thực thể đa tầng Phương pháp này không chỉ dựa vào ngữ cảnh văn

bản mà còn tích hợp thông tin từ các khía cạnh khác nhau như cú pháp và ý

nghĩa Điều này giúp nâng cao hiệu suất bằng cách sử dụng BERT embedding và

cơ chế Multi-head Attention để tận dụng kiến thức đa dạng từ ngữ liệu đầu vào

Phương pháp này đầu tiên xác định các đoạn cụ thể trong văn bản mà chứa thông

tin về các thực thể đa tầng Đối với mỗi đoạn được xác định, các kỹ thuật như so

khớp dựa trên quy tắc hoặc học máy được áp dụng để phát hiện và phân loại

thực thể Một trong những cách giải quyết có thể được thể hiện qua Hình|2.3|(32].

Nghiên cứu đã giới thiệu một phương pháp kết hợp nhiều yếu tố và cấutrúc triaffine để cải thiện việc nhận diện thực thể đa tầng từ việc xác định đoạn

23

Tiêu đề	Nhận diện thực thể đa tầng trong các bài báo khoa học thuộc lĩnh vực nông nghiệp
Tác giả	Lê Phước Vĩnh Linh, Phan Doãn Thái Bình
Người hướng dẫn	TS. Ngô Quốc Hưng
Trường học	Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận cử nhân
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	47,94 MB