1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản tiếng Việt

78 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản tiếng Việt
Tác giả Dương Quốc Lộc
Người hướng dẫn ThS. Nguyễn Đức Vũ
Trường học Đại học Công nghệ Thông tin
Chuyên ngành Khoa học dữ liệu
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 38,39 MB

Cấu trúc

  • 1.2 Mục tiêu và phạm vinghiéncttu (0)
    • 1.2.1 MưDBAI0iêulj'Ƒ/ me ..v#e\0 (0)
    • 1.2.2 Phạm vinghincứu (0)
    • 1.3.1 Về khía cạnh thựctiễn (0)
    • 1.3.2 Về khía cạnh khoahọc (17)
  • 1.5 Cấu trúc luậnvăn................ẶẶẶ Q eee eee 5 Chương 2. Tổng quan 7 (0)
  • 2.1 Bài toán Phát hiện kế thừa văn ban (Recognizing Textual Entailment) 7 (0)
    • 2.1.1 Cơ sở kế thừa vănbản (20)
    • 2.1.2 Phát hiện kế thừa vănbản (21)
    • 2.1.3 Ứng dụng của Phát hiện kế thừa văn bản (22)
    • 2.1.4 Các công trình liên quan (23)
      • 2.1.4.1 Các nghiên cứu trên tiếng Anh (0)
      • 2.1.4.2 Các nghiên cứu trên tiếng Việt (26)
  • 2.2 Bài toán Gan nhãn vainghĩa (27)
    • 2.2.1 Các vai nghĩa (Semantic roles) (27)
      • 2.2.2.1 Thuật toán dựa trên đặc trưng cho tác vụ Gan nhãn (0)
      • 2.2.2.2 Mạng nơ-ron nhân tao cho bài toán Gan nhãn vai nghĩa 17 (30)
    • 2.2.3 Các công trình liên quan (31)
      • 2.2.3.1 Các công trình liên quan trên tiếng Anh (31)
      • 2.2.3.2 Các công trình liên quan trên tiếng Việt (32)
  • Chương 3. Cơ sở lý thuyết 20 (33)
    • 3.1 Kiến trúc mạng nơ-ron nhân tao (Artificial Neural Network- ANN). 20 3.2. Mạng nơ-ron hồi quy (Recurrent Neural Network-RNN) (33)
    • 3.3. Mô hình mang nút hồi tiếp có cổng (Gated recurrent unit- GRU) (36)
    • 3.4 Mô hình Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer - BERT 24 (37)
      • 3.4.1 Tiền huấn luyện mô hình BERT (39)
      • 3.4.2 Tinh chỉnh mô hình BERT (40)
    • 3.5 Mô hình Hoc Không Giám Sát Biểu Diễn Da Ngôn Ngữ-XLM-R . 28 Chương 4. Mô hình học biểu diễn ngữ cảnh nhận thức ngữ nghĩa 30 (41)
      • 4.1.1 Giớithiệu............. ee ee eee 30 (43)
      • 4.1.2 Thanhphanmahéa (0)
      • 4.1.3 Thanh phantichhop (0)
    • 4.2 Mô hình biến thé của SemBERT (47)
  • Chương 5. Thí nghiệm và Kết quả 35 (59)
    • 5.1 Bộngữ liệu Lorelel....................ẶẶẶẶẶẶẶe 35 (48)
      • 5.1.1 Giớithệu.............Ặ ee ee ee 35 (48)
      • 5.1.2 Tổng quan về nhãn ngữnghĩa (49)

Nội dung

Trong đề tài khóa luận này, chúng tôi tiếp cận bài toán Phát hiện kế thừa văn bản bằng cách kết hợp thông tin ngữ cảnh thông qua các mô hình ngôn ngữ tiền huấn luyện dựa trên kiến trúc T

Mục tiêu và phạm vinghiéncttu

Về khía cạnh khoahọc

Luận văn này đóng góp chính trong việc hệ thống lại các kiến thức quan trọng và các nghiên cứu liên quan đến bài toán phát hiện kế thừa văn bản cùng với bài toán gán nhãn vai nghĩa trong tiếng Việt và tiếng Anh Ngoài ra, nó còn tạo tiền đề cho việc kết hợp giữa biểu diễn ngữ nghĩa và biểu diễn ngữ cảnh trong các bài toán hiểu ngôn ngữ tự nhiên trên tiếng Việt Cuối cùng, luận văn thay thế mô hình biểu diễn ngữ cảnh BERT ban đầu của kiến trúc SemBERT bằng mô hình XLM-R và Multilingual-BERT để cải thiện khả năng biểu diễn ngữ cảnh.

1.4 CONG BO KHOA HOC bộ ngữ liệu VLSP-2021. e Đánh giá vai trò của thông tin ngữ nghĩa khi kết hợp với những mô hình biểu diễn từ theo ngữ cảnh bằng việc so sánh với những mô hình đó khi không có thông tin ngữ cảnh. e Từ việc thực nghiệm, đưa ra thảo luận và hướng phát triển cho bài toán Phát hiện kế thừa văn bản và Gán nhãn vai nghĩa trên tiếng Việt. e Việc tận dụng biểu diễn từ theo ngữ cảnh của các mô hình hiện đại mà chưa kết hợp với thông tin ngữ nghĩa đã được xếp hạng 1 ở hội nghị VLSP-2021 cho phan thi Vietnamese and English-Vietnamese Textual Entailment: Recognizing textual entailment relation between 2 sentences, đây là công trình tao tiền đề cho dé tài khóa luận này.

1.4 Công bố khoa học Đề tài khóa luận này được phát triển từ công trình liên quan đến công bố khoa học sau: Quoc-Loc Duong, Duc-Vu Nguyen 2021 "vnNLI - VLSP 2021: Leveraging Contextual Word Embedding for NLI Task on Bi-lingual Datase", First Rank in the shared task of Recognizing Textual Entailment in The 8th International Workshop on Vietnamese Language and Speech Processing (VLSP 2021) Công trình nay da được chap nhận đăng trên tạp chí Khoa học thuộc Dai học Quốc gia Hà Nội (JCSCE).

Khóa luận với đề tài “TÍCH HỢP THÔNG TIN NGỮ NGHĨA VỚI NGỮ CẢNH

Bài viết "CHO BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT" được chia thành 7 chương, trong đó Chương 1 mở đầu với động lực thực hiện khóa luận, bao gồm việc đặt vấn đề, xác định mục tiêu và phạm vi nghiên cứu, cùng các đóng góp chính của khóa luận Chương 2 cung cấp cái nhìn tổng quan về các bài toán liên quan và ứng dụng của bài toán phát hiện kế thừa văn bản cũng như gán nhãn vai nghĩa.

Chương 3 trình bày các cơ sở lý thuyết liên quan đến đề tài khóa luận Chương 4 tập trung vào mô hình SemBERT, giới thiệu chi tiết về mặt toán học và phát triển mô hình biến thể cho thí nghiệm Chương 5 giới thiệu bộ ngữ liệu Lorelei và VLSP-2021, cùng với các độ đo để đánh giá hiệu suất mô hình, bao gồm quá trình thực hiện, kết quả, phân tích, và kết luận về hướng phát triển Cuối cùng, Chương 6 tóm tắt các kết quả đạt được từ khóa luận và đề xuất hướng phát triển trong tương lai.

Trong chương này, chúng tôi sẽ định nghĩa và trình bày vai trò của hai bài toán quan trọng: Phát hiện kế thừa văn bản và Gán nhãn vai nghĩa, cùng với các công trình nghiên cứu liên quan.

2.1 Bài toán Phát hiện kế thừa văn bản (Recognizing Textual Entailment)

2.1.1 Cơ sở kế thừa văn bản

Kế thừa văn bản trong ngôn ngữ tự nhiên thể hiện mối quan hệ có hướng giữa các câu hoặc đoạn Mối quan hệ này được gọi là suy luận, khi văn bản tiên đề nối tiếp với văn bản giả thiết, hoặc khi giả thiết được suy ra từ tiên đề một cách trọn vẹn Tổng quát, trong một văn bản T (tiên đề), giả thiết là một thể hiện của nó.

H Ta nói rằng 7 kế thừa H, kí hiệu 7 — H, nếu ý nghĩa của H suy ra được từ văn bản T khi đặt trong ngữ cảnh của 7 Trong hội nghị RTE-4 đã định nghĩa về kế thừa văn bản và định nghĩa này sẽ được tiếp cận trong toàn bộ khóa luận như sau:

Ké thừa văn bản là một mối quan hệ có hướng giữa hai văn bản, trong đó văn bản T là nguồn và văn bản H là kết quả Nếu tính chất đúng của H có thể được suy ra từ T trong bối cảnh mà T được tạo ra, thì H được xem là văn bản được ké thừa từ T.

Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:

Bảng 2.1 Ví dụ về kế thừa văn bản trong tiếng Việt.

Văn bản Giả thuyét Kê thừa

Google là công ty đa | Google sở hữu Alphabet | Không quốc của tập đoàn AI- phabet.

Mưa lớn được ghi nhận | Hà Nội ở khu vực Bắc | Có ở Hà Nội, thuộc khu vực | Bộ.

Bắc Bộ từ thứ ba.

Anh trai tôi không thích chiếc xe hơi của mình, và trong một lần lái xe, tôi đã không xác định được rằng mình đã va vào cổng trường Hậu quả là tôi phải bồi thường cho trường học vì sự cố này.

Công ty Lazada được đặt | Công ty Lazada có trụ sở | Không ở thành phố HCM, đã | ở tỉnh Đồng Tháp. hủy đơn hàng của tôi ở tỉnh.

Các bác sĩ tình nguyện | Các bác sĩ tình nguyện có | Có có kết quả dương tính | dấu hiệu mắc Covid-19.

Covid-19 vào ngày hôm qua.

2.1.2 Phát hiện kế thừa văn ban

Theo hội nghị RTE-1, phát hiện kế thừa văn bản là bài toán xác định liệu ý nghĩa của một đoạn văn bản có thể được suy luận từ đoạn văn bản còn lại hay không MacCartney và Manning cũng đưa ra định nghĩa tương tự về vấn đề này.

Suy luận ngôn ngữ tự nhiên (Natural Language Inference) hay còn gọi là phát hiện kế thừa văn bản, là nhiệm vụ xác định khả năng suy ra một giả thuyết ngôn ngữ tự nhiên từ một tiền đề cụ thể.

Bài toán phát hiện kế thừa văn bản được định nghĩa như sau: Đầu vào là tập hợp các cặp văn bản và giả thuyết H, trong khi đầu ra bao gồm các nhãn kế thừa như entailment (kế thừa), neutral (trung lập), và contradiction (mâu thuẫn).

Nhãn kế thừa được sử dụng để xác định mối quan hệ kế thừa một cách thủ công, với ý nghĩa rằng "kế thừa" (entailment) thể hiện mối liên hệ giữa các yếu tố trong hệ thống.

2.1 BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL

ENTAILMENT) e Trung tính (neutral): có nghĩa rằng không có đủ điều để xác định liệu 7 kế thừa H hay không. e Mau thuẫn (contradiction): có nghĩa rằng T không kế thừa H.

Nhãn phân loại mối quan hệ kế thừa có thể được đặt tên khác mà không làm thay đổi ý nghĩa, như trong bộ ngữ liệu VLSP-2021 ở tác vụ Gan nhãn vai, với các nhãn argee, neutral và disagree tương ứng với kế thừa, không đủ điều kiện xác định và không kế thừa.

2.1.3 Ứng dụng của Phát hiện kế thừa văn bản

Bài toán Phát hiện kế thừa văn ban (Recognizing Textual Entailment) 7

Cơ sở kế thừa vănbản

Kế thừa văn bản trong ngôn ngữ tự nhiên thể hiện mối quan hệ có hướng giữa các câu hoặc đoạn văn Mối quan hệ này được gọi là suy luận, trong đó văn bản tiên đề nối tiếp văn bản giả thiết, hay giả thiết được suy ra từ tiên đề Nói chung, đối với một văn bản T (tiên đề), thể hiện của nó chính là giả thiết.

H Ta nói rằng 7 kế thừa H, kí hiệu 7 — H, nếu ý nghĩa của H suy ra được từ văn bản T khi đặt trong ngữ cảnh của 7 Trong hội nghị RTE-4 đã định nghĩa về kế thừa văn bản và định nghĩa này sẽ được tiếp cận trong toàn bộ khóa luận như sau:

Ké thừa văn bản là mối quan hệ có hướng giữa hai văn bản, trong đó văn bản T được coi là nguồn và văn bản H là văn bản được ké thừa Tính chất đúng của H có thể được suy ra từ T trong bối cảnh mà T được sinh ra.

Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:

Bảng 2.1 Ví dụ về kế thừa văn bản trong tiếng Việt.

Văn bản Giả thuyét Kê thừa

Google là công ty đa | Google sở hữu Alphabet | Không quốc của tập đoàn AI- phabet.

Mưa lớn được ghi nhận | Hà Nội ở khu vực Bắc | Có ở Hà Nội, thuộc khu vực | Bộ.

Bắc Bộ từ thứ ba.

Anh trai tôi không thích chiếc xe hơi của mình Trong một lần lái xe, tôi vô tình va vào cổng trường học, gây ra hư hỏng Do đó, tôi phải bồi thường cho trường học vì sự cố này.

Công ty Lazada được đặt | Công ty Lazada có trụ sở | Không ở thành phố HCM, đã | ở tỉnh Đồng Tháp. hủy đơn hàng của tôi ở tỉnh.

Các bác sĩ tình nguyện | Các bác sĩ tình nguyện có | Có có kết quả dương tính | dấu hiệu mắc Covid-19.

Covid-19 vào ngày hôm qua.

Phát hiện kế thừa vănbản

Theo định nghĩa tại hội nghị RTE-1, phát hiện kế thừa văn bản là bài toán xác định mối quan hệ giữa hai đoạn văn bản, nhằm xác định xem ý nghĩa của một đoạn có thể được suy luận từ đoạn còn lại hay không MacCartney và Manning cũng đã đưa ra định nghĩa tương tự về khái niệm này.

Suy luận ngôn ngữ tự nhiên, hay còn gọi là Phát hiện kế thừa văn bản, là nhiệm vụ xác định khả năng suy ra một giả thuyết ngôn ngữ tự nhiên từ một tiền đề cụ thể.

Bài toán phát hiện kế thừa văn bản được định nghĩa như sau: Đầu vào là tập hợp các cặp văn bản và giả thuyết H, trong khi đầu ra là nhãn kế thừa, bao gồm các loại entailment, neutral và contradiction.

Nhãn kế thừa được sử dụng để xác định mối quan hệ kế thừa một cách thủ công, mang ý nghĩa rằng sự kế thừa này có thể được hiểu là "kế thừa H".

2.1 BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL

ENTAILMENT) e Trung tính (neutral): có nghĩa rằng không có đủ điều để xác định liệu 7 kế thừa H hay không. e Mau thuẫn (contradiction): có nghĩa rằng T không kế thừa H.

Nhãn phân loại mối quan hệ kế thừa có thể được gọi bằng những tên khác mà vẫn giữ nguyên ý nghĩa Ví dụ, trong bộ ngữ liệu VLSP-2021 cho tác vụ Gan nhãn vai, các nhãn argee, neutral, và disagree lần lượt tương ứng với các khái niệm kế thừa, không đủ điều kiện xác định, và không kế thừa.

Ứng dụng của Phát hiện kế thừa văn bản

Tiếng Việt là một ngôn ngữ phong phú với nhiều ngữ nghĩa, dẫn đến hiện tượng nhập nhằng trong giao tiếp Hiện tượng này thường ít được chú ý nhưng lại phổ biến trong văn nói và văn viết Nhập nhằng có thể hiểu là sự mơ hồ trong ý tưởng, khiến ranh giới giữa các khái niệm trở nên không rõ ràng Một số hiện tượng nhập nhằng thường gặp bao gồm: viết sai chính tả, nhầm lẫn về phạm vi và ranh giới của từ, tính đa nghĩa, sử dụng từ đồng âm, phân biệt từ loại, viết tiếng Việt không dấu, và sự vận dụng từ ngữ không chính xác Những vấn đề này ảnh hưởng đến khả năng truyền đạt thông tin trong tiếng Việt.

Nhiều bài toán trong lĩnh vực Hiểu ngôn ngữ tự nhiên, như Hỏi đáp, Tóm tắt văn bản và Rút trích thông tin, thường gặp khó khăn do hiện tượng nhập nhằng Do đó, bài toán Phát hiện kế thừa văn bản đã được phát triển để giải quyết vấn đề này.

CHƯƠNG 2 TỔNG QUAN thành hệ thống để xử lí các vấn dé suy luận cho cái bài toán vừa nêu Ngoài ra, nó còn được dùng như một hệ thống đánh giá mức độ hiểu ngôn ngữ tự nhiên của các bài toán Xử lí ngôn ngữ tự nhiên nói chung. Đối với các hệ thống tìm kiếm thông tin, khi việc tìm kiếm thông tin dựa vào là các từ khóa (key word) thì kết quả trả về sẽ là một tập kết quả rất lớn Ngoài ra, một điểm yếu khác là khi văn bản không chứa từ khóa của truy vấn nhưng có cùng ý nghĩa thì kết quả hệ thống vẫn trả về là không thể tìm thấy Vì thế vai trò của bài toán Phát hiện kế thừa văn bản sẽ được thể hiện ở chỗ các văn bản thể hiện thông tin sẽ đóng vai trò là văn bản 7 Trong khi đó, các câu truy vấn sẽ đóng vai trò là giả thuyết H, những câu truy van nay sẽ khác các từ khóa về kích thước câu (thường là dài hơn) cũng như chúng sẽ được thể hiện dưới dạng ngữ nghĩa hơn là những từ xuất hiện trong văn bản 7 Từ đó, bài toán Phát hiện kế thừa văn bản sẽ xác định những văn bản phù hợp cũng như không phù hợp cho các truy vấn.

Hệ thống Hỏi đáp sử dụng văn bản ngữ cảnh và câu hỏi như là văn bản 7 và giả thuyết H Nhiệm vụ Phát hiện kế thừa văn bản giúp xác định mối quan hệ giữa văn bản ngữ cảnh và câu hỏi, từ đó cải thiện độ chính xác và tốc độ trong việc tìm kiếm câu trả lời.

Trong lĩnh vực dịch máy, việc áp dụng bài toán phát hiện kế thừa văn bản giúp đánh giá độ chính xác của các bản dịch tự động Cụ thể, bản dịch của con người được coi là văn bản gốc, trong khi các bản dịch từ máy được xem như giả thuyết Những bản dịch chính xác sẽ thể hiện mối quan hệ kế thừa với bản dịch của con người, từ đó nâng cao chất lượng dịch thuật.

Các công trình liên quan

2.1.4.1 Cac nghiên cứu trên tiếng Anh

Phát hiện kế thừa văn bản đã thu hút sự chú ý đáng kể từ các nhà nghiên cứu trong lĩnh vực Xử lý ngôn ngữ tự nhiên, dẫn đến việc tổ chức nhiều hội nghị và công bố khoa học nhằm xây dựng bộ ngữ liệu và cải thiện phương pháp cho bài toán này Một trong những sự kiện nổi bật là chuỗi cuộc thi Phát hiện kế thừa văn bản mang tên The PASCAL Recognizing Textual Entailment Challenge (RTE), được tổ chức liên tục từ nhiều năm qua.

2.1 BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL

Từ năm 2005 đến năm 2011, chuỗi hội nghị ENTAILMENT tập trung vào việc tổng hợp các phương pháp hiệu quả cho bài toán phát hiện kế thừa văn bản Mục tiêu chính của các hội nghị này là nâng cao chất lượng kết quả thông qua các cuộc thi.

Hội nghị RTE-1, diễn ra vào năm 2005, đã thiết lập những tiêu chuẩn đầu tiên cho bài toán Phát hiện kế thừa văn bản Bộ ngữ liệu của hội nghị bao gồm 7 văn bản, mỗi văn bản có thể là một hoặc nhiều câu, và các giả thuyết gồm một câu Các đội tham gia phải quyết định xem mỗi cặp (7, H) có kế thừa nhau hay không, chủ yếu dựa vào sự trùng lặp từ vựng giữa chúng.

T và H Vì thế, các mô hình được dé xuất chủ yếu là các mô hình dựa trên tính toán lô-gít hoặc các mô hình xác suất.

Các hội nghị từ RTE-2 đến RTE-5 tiếp tục phát triển từ RTE-1, với thách thức chính là tăng chiều dài văn bản lên mức đoạn Hội nghị RTE-2 vào năm 2006 đã cung cấp nhiều dữ liệu thực tế cho cặp văn bản 7 - giả thuyết H, chủ yếu từ các hệ thống thực tiễn Các mô hình đề xuất tại hội nghị này đạt độ chính xác cao nhờ vào việc sử dụng thêm thông tin cú pháp và ngữ nghĩa từ nhiều nguồn dữ liệu khác nhau.

Các hội nghị RTE-6 và RTE-7 đã có sự khác biệt rõ rệt so với các hội nghị trước, tập trung vào việc kế thừa văn bản từ một tập ngữ liệu cụ thể Sử dụng cơ sở dữ liệu tri thức, bài toán được đặt ra là kế thừa dựa vào ngữ cảnh Hội nghị RTE-7 đã cung cấp một tập ngữ liệu cùng với các câu ứng viên từ nguồn khác, yêu cầu xác định những câu nào kế thừa từ một giả thuyết đã cho.

Việc học chuyển (transfer learning) đã trở thành xu hướng quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing), tương tự như trong Thị giác máy tính (Computer Vision) Các mô hình học chuyển tiếp ban đầu chủ yếu dựa vào mạng nơ-ron, trong đó công trình của Peters và các cộng sự nổi bật với việc giới thiệu mô hình biểu diễn từ ngữ theo ngữ cảnh sâu (deep contextualized word representation), giúp nắm bắt đặc trưng phức tạp của từ và ngữ cảnh ngôn ngữ Ngoài ra, Howard và Ruder cũng đã phát triển mô hình Universal, đóng góp vào sự tiến bộ của lĩnh vực này.

Mô hình Fine-tuning ngôn ngữ (ULMFiT) dựa trên mạng nơ-ron hồi quy, được coi là một phương pháp học chuyển tiếp hiệu quả Phương pháp này có thể áp dụng cho nhiều lĩnh vực khác nhau.

CHƯƠNG 2 TỔNG QUAN kì nhiệm vụ Xử lí ngôn ngữ tự nhiên nào [1 I].

Hình 2.1 Kiến trúc Transformer Hình ảnh được trích dan từ công trình của Vaswani và các cộng sự [12]

Năm 2017, Vaswani và các cộng sự giới thiệu kiến trúc Transformer, ban đầu đạt kết quả ấn tượng trong bài toán dịch máy Kiến trúc này sau đó được áp dụng rộng rãi trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên, mang lại những đột phá đáng kể Khác với mạng nơ-ron hồi quy xử lý chuỗi tuần tự, Transformer sử dụng cơ chế tự chú ý, cho phép tính toán song song trọng số chú ý cho từng từ trong văn bản đầu vào Cơ chế này giúp đánh giá mức độ ảnh hưởng lẫn nhau của các từ trong văn bản, nâng cao hiệu quả xử lý ngôn ngữ.

2.1 BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL

Bài hát ENTAILMENT cho phép mô hình được huấn luyện trên quy mô lớn hơn so với mạng nơ-ron hồi quy Kiến trúc Transformer bao gồm các lớp mã hóa (encoder) và giải mã (decoder), giúp cải thiện hiệu suất và khả năng xử lý ngữ nghĩa trong các tác vụ khác nhau.

Kể từ năm 2018, kiến trúc Transformer đã trở nên phổ biến, với hai lớp của kiến trúc này được sử dụng độc lập để phát triển nhiều biến thể mô hình khác nhau Hầu hết các mô hình, như BERT (Devlin và các cộng sự) và RoBERTa (Liu và các cộng sự), đều áp dụng bài toán Phát hiện kế thừa văn bản để đánh giá hiệu suất.

Recent advancements in natural language processing have introduced several state-of-the-art models, including XLNet, UniLM, ELECTRA, T5, ALUM, StructBERT, DeBERTa, and ERINE These models, developed by various researchers, can be fine-tuned for specific task labels and have achieved impressive results in downstream tasks, as demonstrated by multiple studies.

2.1.4.2 Các nghiên cứu trên tiếng Việt

Bài toán Phát hiện kế thừa văn bản là một bài toán khá mới trên tiếng Việt Tuy nhiên, nó cũng thu hút với trong cộng đồng nghiên cứu.

Năm 2018, Conneau và các cộng sự giới thiệu bộ ngữ liệu XNLI, được phát triển từ MultiNLI và mở rộng thêm 15 ngôn ngữ, bao gồm cả tiếng Việt Đáng lưu ý, bộ ngữ liệu tiếng Việt này được dịch bằng máy.

Bộ ngữ liệu XNLI là công cụ quan trọng để đánh giá hiệu suất của các mô hình trong bài toán Phát hiện kế thừa văn bản Các mô hình tiền huấn luyện dựa trên kiến trúc Transformer, như PhoBERT và BERTweet, đã được áp dụng rộng rãi trong lĩnh vực này.

(Nguyen và các cộng sự [33]).

Năm 2021, hội nghị VLSP đã giới thiệu bộ dữ liệu mới cho bài toán Phát hiện kế thừa văn bản, đánh dấu một bước tiến quan trọng trong nghiên cứu Bộ dữ liệu này đặc biệt vì bao gồm cả tiếng Việt và tiếng Anh, tạo ra thách thức cho các đội tham gia Các đội đã sử dụng bộ dữ liệu này nhằm cải thiện hiệu suất mô hình trong việc phát hiện kế thừa văn bản.

Bài toán Gan nhãn vainghĩa

Các vai nghĩa (Semantic roles)

Trong lý thuyết ngôn ngữ học, vai nghĩa đề cập đến các vai trò ngữ nghĩa của danh từ và các thành phần khác trong câu, được gọi là tham đối (argument), liên quan đến hành động hoặc trạng thái mà động từ (vị từ) mô tả Vai nghĩa có khả năng trả lời các câu hỏi như Ai? Ai đã làm gì với ai? Khi nào? Ở đâu? và Tại sao?

AGENT VERB PATIENT Động từ đá được gọi là vị từ, trong khi đó, từ Toi và bóng được gọi là tham đối.

Từ "72¡" đóng vai trò là chủ thể thực hiện hành động được miêu tả bởi vị từ "đá", trong khi từ "bóng" giữ vai trò là thể chịu tác động bởi hành động từ vai tác thể.

Từ "toi" khi đứng riêng lẻ thường chỉ một người không có ý nghĩa cụ thể, nhưng trong ngữ cảnh nhất định, nó có thể trở thành yếu tố quan trọng cho sự kiện liên quan đến hành động được mô tả bởi từ "đá".

Vai nghĩa đóng vai trò quan trọng trong hệ thống tính toán ngôn ngữ, giúp máy tính phát hiện các sự kiện trong văn bản Nó cho phép biểu diễn ngữ nghĩa một cách tổng quát, hỗ trợ suy luận đơn giản mà các phương pháp khác không thể thực hiện Vai nghĩa là một khái niệm phức tạp, được nghiên cứu từ nhiều góc độ, nhưng vẫn chưa có sự thống nhất trong việc xác định và mô tả Một số vai nghĩa phổ biến được liệt kê trong Bảng 2.2.

2.2 BÀI TOÁN GÁN NHÂN VAI NGHĨA

Bảng 2.2 Bảng tập hợp các nhãn vai nghĩa phổ biến.

Nhãn vai nghĩa Mô tả

(Agent) Nguyên nhân của một sự kiện

(Patient) Đôi tượng chịu sự tác động, dan đên một thay doi

Vai thể chuyển động 2 2 XA epee SA (Theme) Thực thé chuyển động hoặc đứng yên

Vai nghiệm thể Chủ thể trải nghiệm một sự kiện nào đó

Vai ke hưởng lợi Kẻ được hướng lợi từ một su kiện

Val công cụ Công cụ được dùng để thực hiện hành động

Vai địa điểm, vị trí Nơi chốn của đối tượng hoặc hành động

Vai lực tự nhiên Ậ ` aN yen fo ` (Force) Nguyên nhân phi điều kiện cua sự kiện

2.2.2 Gan nhãn vai nghĩa (Semantic role labeling)

Gán nhãn vai nghĩa là quá trình xác định vai trò của các thành phần trong câu, giúp làm rõ cấu trúc và mối quan hệ giữa vị từ và các tham đối Quá trình này được coi là một bài toán phân loại, bao gồm việc phát hiện các tham đối liên quan đến vị từ hoặc động từ và phân loại chúng vào các vai trò cụ thể Đối với một vị từ nhất định, gán nhãn vai nghĩa có nhiệm vụ chỉ định nhãn cho các thành phần liên quan, dựa trên một tập hợp nhãn ngữ nghĩa đã được định nghĩa trước.

Gán nhãn vai nghĩa là một bài toán chuyển tiếp quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, không phải là bài toán nền tảng Nó đóng vai trò thiết yếu trong các ứng dụng như Dịch máy, Hỏi đáp và Rút trích thông tin Thông qua việc gán nhãn vai nghĩa, các hệ thống có thể hiểu ngữ nghĩa dựa trên cấu trúc bề mặt, cung cấp một dạng biểu diễn trừu tượng cao hơn so với cây cú pháp.

Cách tiếp cận hiện tại cho bài toán này sử dụng phương pháp học có giám sát, thường dựa vào bộ ngữ liệu FrameNet và PropBank để huấn luyện mô hình phân loại Mục tiêu là xác định vị từ và các vai trò ngữ nghĩa liên quan Mặc dù mỗi bộ dữ liệu có các gán nhãn khác nhau, nhưng vẫn giữ được bản chất của vai nghĩa.

Ví dụ về nhãn vai nghĩa của FrameNet [35]:

[You] can’t [blame] [the program] [for being unable to identify it] COGNIZER TARGET EVALUEE REASON

Vi du về nhãn vai nghĩa của PropBank [36]:

[The San Francisco Examiner] issued [a special edition] [yesterday]

ARGO TARGET ARGI ARGM-TMP

2.2.2.1 Thuật toán dựa trên đặc trưng cho tác vu Gan nhãn vai nghĩa Đa phần hệ thống gán nhãn vai nghĩa cơ bản sẽ trích xuất các đặc trưng cho từng thành phần trong một phân tích cú pháp và huấn luyện một mô hình máy học để hỗ trợ việc dự đoán nhãn ngữ nghĩa của tham đối Thuật toán gãn nhãn vai nghĩa dựa trên đặc trưng được Simmons và các cộng sự thực hiện từ năm 1973 [37] Thuật toán sẽ phân tích cú pháp trên phạm vi rộng của cho chuỗi đầu vào Mục tiêu của việc phân tích cú pháp làm giàu đặc trưng cho mô hình phân loại để xác định những từ giữ vai trò là vi từ của câu. ni

VBD = TARGET NP = ARG1 PP-TMP = ARGM-TMP

IN NP issued 1B JJ NN

| | [~~ Bán a special edition around NN NP-TMP noon yesterday

Hình 2.2 Cây phân tích cú pháp đầy đủ cho một câu trong bộ ngữ liệu PropBank.

2.2 BÀI TOÁN GAN NHÂN VAI NGHĨA Đối với mỗi vị từ, thuật toán sẽ kiểm tra mỗi nút của cây phân tích cú pháp và sử dụng thuật toán phân loại có giám sát để xác định vai trò của vai nghĩa của các tham đối Cho trước một tập dữ liệu huấn luyện được gán nhãn như PropBank hoặc FrameNet, một véc-tơ đặc trưng được trích xuất ở mỗi nút của cây phân tích cú pháp câu Véc-tơ đặc trưng này sẽ đi qua lớp phân loại có số chiều ở đầu ra là N, với N là số lượng nhãn vai nghĩa được xác định trước đó và nhãn NON E được thêm vào cho những thành phần không mang nhãn vai nghĩa Sau đây là mã giả của thuật toán: cỳ phỏp ô+ Phõn tớch cỳ phỏp (cõu) for vị từ in cú pháp do for nút in cú pháp do véc-tơ đặc trưng ¢

Rút_ trích đặc_ trưng (nút, vị từ, cú pháp) Phân_ loại _ nút (nút, véc-tơ đặc trưng, cú pháp)

2.2.2.2 Mạng nơ-ron nhân tao cho bài toán Gan nhãn vai nghĩa

Mô hình mạng nơ-ron, đặc biệt là kiến trúc Transformer, đã có những cải tiến đáng kể, mang lại kết quả vượt bậc trong lĩnh vực Xử lý ngôn ngữ tự nhiên Việc áp dụng mô hình dựa trên kiến trúc này cho bài toán Gán nhãn vai nghĩa hứa hẹn sẽ mang lại những kết quả khả quan Phương pháp giải quyết bài toán Gán nhãn vai nghĩa tương tự như Gán nhãn tuần tự, đặc biệt là trong tác vụ Nhận diện thực thể được đặt tên Trong đó, các nhãn vai nghĩa của câu đầu vào được gán theo định dạng IOB (inside—outside—beginning) Hình 2.3 minh họa quy trình thực hiện của bài toán Gán nhãn vai nghĩa một cách tổng quát.

Bảng 2.3 Định dạng IOB cho bài toán Gán nhãn vai nghĩa đối với hướng tiếp cận Gán nhãn tuần tự

Anh ấy đang cắt tia cây kiểng

B-AGENT J-AGENT O B-ACT J-ACT B-PAIIENI I-PATIENT

Bài toán Gán nhãn tuần tự được định nghĩa như sau: Đầu vào là chuỗi từ X = {zi, #a, , „}, trong khi đầu ra là chuỗi nhãn Y = {/¡ , „}, được gán tương ứng cho các từ trong X.

CHƯƠNG 2 TỔNG QUAN oO B-THEME B-GOAL B-FORCE I-FORCE oO O tot ot ot +f +t +t

Mô hình tiền huấn luyện dựa trên Transformer tot ft 1 1 1 ot Đầu vào

Hình 2.3 Minh họa cách tiếp cận bài toán Gán nhãn vai nghĩa dựa trên kiến trúcTransformer, nổi bật với công trình của Shi và Lin [38].

Các công trình liên quan

2.2.3.1 Các công trình liên quan trên tiếng Anh

Gildea và Jurafsky là những người tiên phong trong việc đề xuất phương pháp phân tích ngữ nghĩa nông cho bài toán Gán nhãn vai nghĩa Bài toán này đã được phổ biến thông qua bộ ngữ liệu PropBank do Palmer và các cộng sự phát triển, cùng với FramNet do Baker và các cộng sự thực hiện.

Bài toán có thể được tiếp cận qua hai phương pháp chính: các kỹ thuật xử lý dữ liệu (data-driven) và việc áp dụng các mô hình mạng nơ-ron.

Trong giai đoạn đầu, các nghiên cứu về bài toán Gán nhãn vai nghĩa chủ yếu tập trung vào kỹ thuật xử lý thuộc tính từ vựng và cú pháp, sau đó phát triển mô hình máy học cho phân loại dựa trên các thuộc tính này Nổi bật trong lĩnh vực này là công trình của Pradhan và các cộng sự cũng như Punyakanok và các cộng sự.

Zhao và các cộng sự đã chỉ ra rằng giai đoạn tiếp theo trong nghiên cứu Gán nhãn vai nghĩa chủ yếu dựa vào mô hình học mạng nơ-ron, đánh dấu sự chuyển dịch từ phát triển kỹ thuật xử lý thuộc tính sang xây dựng kiến trúc mô hình Một số mô hình tiêu biểu bao gồm EitzGerald và các cộng sự, Zhou và Xu, Roth và Lapata, Marcheggiani và Titov, Tan và các cộng sự, cùng Strubell và các cộng sự Hầu hết các mô hình hiệu suất cao áp dụng phương pháp Gán nhãn tuần tự (Sequence labeling) với định dạng nhãn IOB, theo nghiên cứu của He và các cộng sự, Ouchi và các cộng sự, Fei và các cộng sự.

Kể từ khi mô hình BERT ra đời, nó đã đạt những kế quả đột phá trong hầu hết

2.2 BÀI TOÁN GAN NHÂN VAI NGHĨA các bài toán về Xử lí ngôn ngữ nhiên Vì thế, năm 2019, Shi và Lin [38] đã áp dụng BERT cho bài toán Phát hiện kế thừa văn bản Mô hình đã cho kết quả vượt trội so với các mô hình học sâu cũng như các mô hình máy học truyền thống Mô hình cũng có thể được xem như là mô hình cơ sở (baseline model) đối với bài toán này theo hướng tiếp cận tinh chỉnh mô hình tiền huấn luyện dựa trên kiến trúc Transformer. Gần đây, trong năm 2021, Oliveira và các cộng sự đã áp dụng kiến trúc Transformer và việc học chuyển tiếp để cải thiện hiệu suất cho bài toán Gán nhãn vai nghĩa trên tiếng Bồ Đào Nha Chúng tôi đã sử dụng mô hình thuộc một phần trong công trình này cho mục đích rút trích nhãn vai nghĩa cho tiếng Anh, được trình bày cụ thể ở

Gán nhãn vai trò là một bài toán chuyển tiếp quan trọng, thường được áp dụng trong các nghiên cứu về hiểu ngôn ngữ tự nhiên.

Dich máy, bao gồm các nghiên cứu của Shi và cộng sự, Wang và cộng sự, Marcheggiani và cộng sự, tập trung vào việc cải thiện khả năng dịch tự động Hỏi đáp là lĩnh vực nghiên cứu đáng chú ý với các công trình của Yih và cộng sự, Zheng và Kordjamshidi, cũng như Xu và cộng sự, nhằm nâng cao hiệu quả trong việc tìm kiếm câu trả lời từ văn bản Cuối cùng, hiểu văn bản được nghiên cứu bởi Zhang và cộng sự, với mục tiêu phát triển các phương pháp hiểu sâu hơn về ngữ nghĩa và ngữ cảnh trong văn bản.

2.2.3.2 Các công trình liên quan trên tiếng Việt

Bài toán Gán nhãn vai nghĩa trong tiếng Việt là một lĩnh vực nghiên cứu còn mới mẻ, với ít công trình hiện có Năm 2017, Le-Hong và cộng sự đã công bố một bộ ngữ liệu cho bài toán này, nhưng chưa được phát tán rộng rãi Cùng thời điểm, Pham và các cộng sự cũng đã đề xuất một phương pháp tiếp cận dựa trên thuật toán máy học, kết hợp với phân tích cú pháp để giải quyết bài toán Gán nhãn vai nghĩa trên bộ ngữ liệu đó.

Cơ sở lý thuyết 20

Kiến trúc mạng nơ-ron nhân tao (Artificial Neural Network- ANN) 20 3.2 Mạng nơ-ron hồi quy (Recurrent Neural Network-RNN)

Mạng nơ-ron nhân tạo bao gồm ba lớp: lớp đầu vào, các lớp ẩn (có thể có hoặc không) và lớp đầu ra, với các nút (node) được minh họa trong hình 3.1 Mỗi nút trong lớp ẩn và lớp đầu ra liên kết với tất cả các nút ở lớp trước thông qua các hệ số W riêng biệt, cùng với một hệ số b (bias) tương ứng Tại mỗi nút, diễn ra hai quá trình: đầu tiên là tính tổng tuyến tính bằng cách nhân các giá trị của các nút trước với hệ số W và cộng với hệ số b, sau đó là áp dụng hàm kích hoạt cho tổng tuyến tính này.

Việc thực hiện này tương tự các nơ-ron trong bộ não khi nhận được tín hiệu sẽ được kích hoạt và lan truyền đến các nơ-ron khác.

Hình 3.1 Minh họa mạng nơ-ron nhân tạo đơn giản.

Hàm kích hoạt là thành phần quan trọng trong mạng nơ-ron nhân tạo, chịu trách nhiệm chuyển đổi đầu vào tuyến tính thành đầu ra phi tuyến tại mỗi nút Kết quả đầu ra này sẽ được sử dụng làm đầu vào cho nút tiếp theo, giúp mô hình hóa các bài toán phức tạp hơn so với các phép biến đổi tuyến tính, như bài toán XOR Hàm kích hoạt quyết định thời điểm thông tin tại một nút được truyền đến lớp tiếp theo.

3.2 MẠNG NƠ-RON HÔI QUY (RECURRENT NEURAL NETWORK - RNN) kế tiếp hay không, tương tự các nơ-ron trong não bộ quyết định kích hoạt việc lan truyền xung thần kinh hay không Công thức tổng quát của hàm kích kích hoạt được biểu diễn như sau: ƒ(WTz +b) = f(wia + 0a#a + - + Wnty +b) (3.1)

Trong đó, hàm ƒ(-) có tên gọi là hàm kích hoạt, W" là ma trận hệ số và b là véc-tơ hệ số độc lập.

Bảng 3.1 Bảng tổng hợp một số hàm kích hoạt phổ biến.

Hàm kích hoạt Công thức

Leaky ReLU Pla) bong Oo

3.2 Mang no-ron hồi quy (Recurrent Neural Network - RNN)

Mạng nơ-ron hồi quy là phiên bản của mạng nơ-ron nhân tạo, chuyên giải quyết các bài toán với dữ liệu đầu vào dạng chuỗi như văn bản, video và dữ liệu chuỗi thời gian Khác với mạng nơ-ron truyền thống, nơi các đầu vào và đầu ra độc lập, mạng nơ-ron hồi quy giữ lại thông tin vị trí đầu vào, giúp bảo toàn mối liên hệ giữa các yếu tố trong chuỗi.

Việc thay đổi vị trí từ trong câu như “con chưa đi học” và “con đi học chưa” cho thấy sự thay đổi rõ rệt về ý nghĩa Mạng nơ-ron truyền, khi xem các từ độc lập, có thể dẫn đến kết quả không chính xác Để khắc phục vấn đề này, mạng nơ-ron hồi quy ra đời, với cơ chế hoạt động nắm bắt thông tin từ các bước tính toán trước đó nhằm dự đoán kết quả hiện tại Mạng nơ-ron hồi quy được cấu trúc dưới dạng chuỗi các nút, cùng thực hiện cơ chế hồi quy này.

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT được minh họa trong Hình 3.2 Đ Yt-1 Ye Yt+1

V V V V hy U Khai trién hua Loh — hịịđ

Hình 3.2 Minh họa kiến trúc mạng nơ-ron hôi quy.

Quá trình khai triển của mạng nơ-ron hồi quy bắt đầu với giá trị đầu vào tại thời điểm t, ký hiệu là x_t Trạng thái ẩn tại thời điểm t, ký hiệu là h_t, được tính toán dựa trên các trạng thái ẩn trước đó thông qua công thức h_t = g(Wx_t + Uh_{t-1}), trong đó W là ma trận hệ số của lớp đầu vào, U là ma trận hệ số của lớp trạng thái ẩn, và g(.) là hàm kích hoạt thường là hàm tanh hoặc ReLU Trạng thái đầu tiên của mạng hồi quy thường được khởi tạo bằng 0 Giá trị của lớp đầu ra tại thời điểm t, ký hiệu là y_t, được tính bằng công thức y_t = f(Vh_t), với V là ma trận hệ số của lớp đầu ra và f(.) là hàm phi tuyến thường là softmax.

Mô hình hồi quy cho kết quả tốt hơn so với mô hình mạng nơ-ron nhân tạo cơ bản trong việc xử lý dữ liệu chuỗi nhờ khả năng sử dụng thông tin từ các trạng thái ẩn trước đó Tuy nhiên, mô hình này gặp khó khăn trong việc nắm bắt thông tin trong các ngữ cảnh phức tạp và khi độ dài chuỗi tăng lên, dẫn đến hiện tượng mất mát đạo hàm (vanishing gradient) và bùng nổ đạo hàm (exploding gradient).

3.3 MÔ HÌNH MẠNG NUT HOI TIẾP CÓ CỔNG (GATED RECURRENT UNIT -

Mô hình mang nút hồi tiếp có cổng (Gated recurrent unit- GRU)

Vào năm 2014, mô hình mạng GRU đã được giới thiệu bởi Cho và các cộng sự như một biến thể của LSTM, nhằm khắc phục vấn đề van đỉnh trong các mô hình mạng nơ-ron hồi quy, chẳng hạn như hiện tượng mất mát hoặc bùng nổ đạo hàm Mô hình GRU cũng bao gồm một chuỗi các nút tương tự như mạng nơ-ron hồi quy, nhưng với cấu trúc phức tạp hơn, cho phép kiểm soát trạng thái ẩn hiệu quả hơn thông qua việc sử dụng cổng xóa (reset gate) và cổng cập nhật (update gate) để điều chỉnh luồng thông tin.

Cổng quên Cổng cập nhật

Hình 3.3 Minh hoa mô hình GRU.

Cổng cập nhật có chức năng xác định lượng thông tin cần truyền từ quá khứ đến hiện tại, giúp mô hình tránh rủi ro về vấn đề đạo hàm Đầu vào z tại thời điểm t được nhân với ma trận trọng số W, trong khi trạng thái ẩn h tại thời điểm t-1 được nhân với ma trận trọng số U Kết quả của hai phép nhân này được cộng lại và đi qua hàm kích hoạt sigmoid, được mô tả bằng công thức z_t = σ(Uh_{t-1} + Wz_t).

Cổng xóa có chức năng loại bỏ thông tin từ các thời điểm trước đó, tương tự như cổng cập nhật, giúp cải thiện hiệu suất của mô hình.

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT nhau giữa cổng cập nhật và cổng xóa nam ở trọng số và nhiệm vụ của mỗi cổng.

Cổng xóa sẽ được sử dụng để quyết định thông tin quá khứ nào cần lưu trữ, trong khi phép nhân chập giữa cổng xóa và tích của ma trận trọng số U với trạng thái ẩn trước đó sẽ xác định thông tin cần xóa Công thức mô tả quá trình này là: hi, = tanh(U(r; © hị_1) + Wat).

Để tính trạng thái ẩn h; cho bước kế tiếp, cần sử dụng cổng cập nhật Cổng cập nhật có nhiệm vụ xác định khía cạnh nào của nội dung thông tin hiện tại được sử dụng và khía cạnh nào của trạng thái ẩn trước đó cần loại bỏ Trạng thái ẩn kế tiếp được biểu diễn bằng công thức: hy = (1— z)ht — 1+ zthị (3.7).

Mô hình Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer - BERT 24

BERT là viết tắt của cụm từ Bidirectional Encoder Representation from Transformer

Mô hình BERT, ra mắt vào năm 2018 bởi Devlin và các cộng sự, đã tạo ra bước ngoặt lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên, đặc biệt là trong việc Hiểu ngôn ngữ tự nhiên Những cải tiến đáng chú ý của BERT bao gồm việc tăng chỉ số tổng quát đánh giá mức độ hiểu ngôn ngữ (GLUE score - General Language Understanding Evaluation).

Language Understanding Evaluation score) lên đến 80.5%. e Tăng độ chính xác (accuracy) ở bài toán Phát hiện kế thừa van bản trên bộ dữ liệu MultiNLI lên đến 86.7%.

3.4 MÔ HÌNH BIỂU DIEN THỂ HIỆN MÃ HOA HAI CHIEU TỪ TRANSFORMER

- BERT e Tăng độ đo F, đối với tác vụ Hỏi đáp (SQUAD) đến 93.2%.

Mô hình BERT tìm kiếm các véc-tơ biểu diễn mối quan hệ ngữ cảnh giữa các từ trong văn bản dựa trên kiến trúc Transformer Transformer bao gồm hai cơ chế chính: mã hóa (encoder) để đọc văn bản đầu vào và giải mã (decoder) để đưa ra dự đoán Mục tiêu của mô hình này là phát triển một mô hình ngôn ngữ hiệu quả.

BERT chỉ sử dụng lớp encoder của Transformer.

Mô hình BERT, cùng với kiến trúc Transformer, xử lý đầu vào đồng thời, cho phép học ngữ cảnh từ các từ trong câu thông qua cơ chế tự chú ý (self-attention), khác với các mô hình nơ-ron hồi quy như LSTM và GRU, nơi đầu ra được xử lý tuần tự Mặc dù việc truyền dữ liệu cùng lúc có thể dẫn đến mất mát thông tin về thứ tự từ, nhược điểm này đã được khắc phục bằng cách bổ sung lớp thông tin về thứ tự từ trong câu Hình 3.4 minh họa cách biểu diễn đầu vào của mô hình.

Hình 3.4 Biểu diễn đầu vào của mô hình BERT Hình ảnh được trích dẫn từ công trình của Devlin và các cộng sự [17].

Việc huấn luyện mô hình BERT được tác giả tiến hành theo hai chiến lược của

Mô hình Ngôn ngữ có Mặt nạ (Masked Language Modeling - MLM) và Dự đoán Câu tiếp theo (Next Sentence Prediction - NSP) là hai phương pháp chính trong BERT Để tinh chỉnh BERT cho nhiều tác vụ hạ nguồn, tác giả sử dụng phương pháp WordPiece với bộ từ điển khoảng 30.000 token Mỗi chuỗi bắt đầu bằng token đặc biệt [CLS] để đánh dấu.

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT thái cuối cùng, token này được dùng cho việc phân loại Trong khi đó, token [SEP ] dùng để làm phân tách các chuỗi với nhau.

3.4.1 Tiền huấn luyện mô hình BERT

Mô hình BERT được tiền huấn luyện thông qua hai chiến lược chính: Mô hình Ngôn ngữ có Mặt na (Masked Language Modeling - MLM) và Dự đoán Câu tiếp theo (Next Sentence Prediction - NSP) Chiến lược MLM giúp mô hình hiểu ngữ cảnh bằng cách dự đoán các từ bị ẩn trong câu, trong khi NSP hỗ trợ khả năng nắm bắt mối quan hệ giữa các câu Sự kết hợp này giúp BERT đạt hiệu suất cao trong nhiều tác vụ xử lý ngôn ngữ tự nhiên.

Mô hình Ngôn ngữ có Mặt nạ (Masked Language Model) học biểu diễn ngôn ngữ theo phương pháp không giám sát, tạo ra các biểu diễn nhúng từ (word embedding) với kích thước lớn và kết quả ấn tượng Trong quá trình huấn luyện, khoảng 15% token từ thuật toán WordPiece sẽ được thay thế bằng token [MASK], khiến chúng bị che dấu Mô hình dựa vào các từ không bị che dấu xung quanh để dự đoán từ bị che bởi token [MASK] Quá trình dự đoán này yêu cầu thêm một lớp phân loại ở đầu ra của lớp encoder, nhân véc-tơ đầu ra với ma trận nhúng, và tính xác suất của mỗi từ trong từ vựng bằng hàm softmax.

Dự đoán câu tiếp theo là một bài toán học có giám sát giúp mô hình BERT hiểu mối quan hệ giữa các câu Dữ liệu đầu vào gồm một cặp câu, trong đó 50% câu thứ hai được chọn từ câu thứ nhất và 50% được chọn ngẫu nhiên từ toàn bộ dữ liệu Nhãn đầu ra xác định cặp câu là liên tiếp (IsNext) hoặc không liên tiếp (NotNext) Để phân biệt giữa hai từ trong quá trình huấn luyện, đầu vào được xử lý bằng cách thêm token [CLS] vào đầu câu thứ nhất và token [SEP] vào cuối mỗi câu, cùng với việc cộng biểu diễn nhúng câu với từng token tương ứng.

3.4 MÔ HÌNH BIỂU DIEN THỂ HIỆN MÃ HOA HAI CHIEU TỪ TRANSFORMER

1) (9% } tm) tm) [t: fot tf Ft 4

Từ vựng + Softmax ft 1 1 11 Ff

Lớp tuyến tính + GELU + Norm

M ) (wm | [ w | (mask) | Ws f of Ff FF

Wi We Ws WwW, Ws

Hình 3.5 Huan luyện Mô hình Ngôn ngữ có Mặt nạ. e Biểu diễn nhúng vị trí được thêm vào mỗi token để đánh dấu vị trí của token trong câu.

3.4.2 Tinh chỉnh mô hình BERT

Mô hình BERT có ưu điểm vượt trội so với các mô hình nhúng từ như GloVe nhờ vào khả năng tinh chỉnh thông qua việc bổ sung lớp đầu ra cho từng tác vụ cụ thể.

Quá trình huấn luyện và tinh chỉnh mô hình BERT sử dụng cùng một kiến trúc, do đó, quá trình tinh chỉnh sẽ áp dụng các thông số khởi tạo giống nhau cho các tác vụ phía sau (downstream tasks), bao gồm những tác vụ học có giám sát dựa trên mô hình đã được tiền huấn luyện.

Quá trình tinh chỉnh mô hình BERT cho các nhiệm vụ như phân loại, hỏi đáp và nhận diện thực thể được thực hiện với các chiến lược khác nhau Đối với tác vụ phân loại, như phân tích cảm xúc, lớp phân loại được thêm vào đầu ra của lớp encoder tại token [CLS], tương tự như chiến lược dự đoán câu tiếp theo trong giai đoạn tiền huấn luyện Trong tác vụ hỏi đáp, mô hình BERT được huấn luyện để xác định vị trí bắt đầu và kết thúc của câu trả lời liên quan đến văn bản đã cho Đối với tác vụ nhận diện thực thể được đặt tên, mô hình cũng được tinh chỉnh để nhận diện và phân loại các thực thể trong văn bản.

CHUONG 3 CƠ SỞ LÝ THUYET

Mô hình BERT, như được thể hiện trong Hình 3.6, là kiến trúc tổng quan cho giai đoạn huấn luyện ngôn ngữ và tinh chỉnh tham số cho các nhiệm vụ cụ thể như Suy luận ngôn ngữ tự nhiên (MNLI) và Hoi đáp (SQuAD) Hình ảnh này được trích dẫn từ nghiên cứu của Devlin và các cộng sự [17] Mô hình yêu cầu xác định các loại thực thể xuất hiện trong văn bản, với đầu ra được truyền vào lớp phân loại để dự đoán nhãn.

Mô hình Hoc Không Giám Sát Biểu Diễn Da Ngôn Ngữ-XLM-R 28 Chương 4 Mô hình học biểu diễn ngữ cảnh nhận thức ngữ nghĩa 30

Mô hình BERT không được tối ưu cho việc huấn luyện trên dữ liệu đa ngôn ngữ, dẫn đến sự ra đời của mô hình XLM-R vào năm 2019 do Conneau và các cộng sự phát triển XLM-R được huấn luyện trên một bộ dữ liệu lớn với khoảng 100 ngôn ngữ, mang lại những cải tiến đáng kể trong khả năng xử lý ngôn ngữ đa dạng.

Modeling (MLM) take Vs] drink now

Token embeddings Us} (Masts) 2 Seat [ERE] have a [MASK] Us] [MASK] relax and

Language en en en en en en en en en en en en embeddings

Modeling (TLM) curtains} were les bleus

+ + + KF ? KR + + + HK + F emboddhge Us] the [MASK]] |IMASK] blue Vs] Us] [MASK]} [ideaux| |étaient| |[MASKI Us]

+ + + + + + + + + + + + ni diligp en en en en en en fr fr fr fr fr fr

Hình 3.7 Kiên trúc tổng quan về mô hình XLM-R ở giai đoạn tiên huân luyện Hình ảnh được trích từ công trình của Conneau và các cộng sự [64].

3.5 MÔ HÌNH HỌC KHÔNG GIÁM SÁT BIỂU DIỄN ĐA NGÔN NGỮ - XLM-R Đầu tiên, mô hình XLM-R sử dụng phương pháp tách từ Byte Pair Encoding (BPE) Phương pháp này sẽ chia dữ liệu đầu vào của mô hình thành những từ phụ phổ biến nhất của tất cả ngôn ngữ, giúp tăng khả năng chia sẻ từ vựng giữa các ngôn ngư.

Mô hình XLM-R được cải tiến từ BERT thông qua hai chiến lược chính Đầu tiên, mỗi mẫu dữ liệu huấn luyện trong XLM-R bao gồm hai ngôn ngữ khác nhau nhưng có nghĩa tương đồng, trong khi BERT chỉ sử dụng một ngôn ngữ cho mỗi mẫu Thứ hai, mục tiêu của Mô hình Ngôn ngữ có Mặt nạ (Masked Language Modeling - MLM) của BERT là dự đoán các token bị che dấu, trong khi XLM-R có khả năng sử dụng ngữ cảnh của một ngôn ngữ để dự đoán các token trong ngôn ngữ còn lại.

Ngôn ngữ Dich (Translation Language Modeling - TLM) là một phương pháp quan trọng trong việc xử lý ngôn ngữ tự nhiên Mô hình XLM-R sử dụng định danh (ID) và thứ tự token cho từng ngôn ngữ, giúp cải thiện khả năng dịch thuật Việc tích hợp siêu dữ liệu (metadata) mới cho phép mô hình học hỏi và nhận diện mối quan hệ giữa các token trong nhiều ngôn ngữ khác nhau, nâng cao hiệu quả của quá trình dịch.

Chương 4 MÔ HÌNH HỌC BIEU DIỄN NGỮ CẢNH NHAN

Trong chương này, chúng tôi sẽ giới thiệu mô hình SemBERT, một giải pháp kết hợp giữa biểu diễn ngữ cảnh và ngữ nghĩa cho bài toán Phát hiện kế thừa văn bản Mô hình SemBERT bao gồm hai thành phần chính: một cho biểu diễn ngữ cảnh và một cho biểu diễn ngữ nghĩa, hoạt động song song và sau đó kết hợp để tạo ra một biểu diễn toàn diện Chúng tôi cũng áp dụng các mô hình XLM-R và Multilingual-BERT thay cho BERT trong phần biểu diễn ngữ cảnh, gọi chung là các biến thể của mô hình SemBERT.

Mô hình SemBERT, do Theo Zhang và các cộng sự phát triển, đã mang lại những cải tiến đáng kể trong lĩnh vực Hiểu ngôn ngữ tự nhiên, vượt trội hơn các mô hình như BERT, XLNet và GPT Mặc dù các mô hình này có khả năng tinh chỉnh dễ dàng cho các tác vụ khác, chúng thường bị hạn chế trong việc tích hợp ngữ nghĩa cho ngữ cảnh Để khắc phục điều này, SemBERT được giới thiệu vào năm 2021, tận dụng khả năng học biểu diễn ngữ cảnh và kết hợp thông tin ngữ nghĩa từ bài toán Gán nhãn vai nghĩa Mô hình SemBERT bao gồm hai thành phần chính: mã hóa chuỗi đầu vào và tích hợp ngữ nghĩa, giúp nâng cao hiệu quả trong các ứng dụng ngôn ngữ.

Thành phần mã hóa đảm nhận vai trò quan trọng trong việc học biểu diễn ngữ cảnh cho văn bản đầu vào, đồng thời tạo ra biểu diễn ngữ nghĩa thông qua các chuỗi nhãn vai nghĩa tương ứng.

Biểu diễn ngữ cảnh nhận thức ngữ nghĩa

Tích hợp tương ứng với nhau Công ty Mê-kông sửa con đường cho mọi người

Tách từ cho BERT Mô hình Gán nhãn vai nghĩa*

Công ty Mê-kông sửa con đường cho mọi người

Mô hình SemBERT, như hình 4.1 thể hiện, được thiết kế đặc biệt cho bài toán Gán nhãn vai nghĩa, nhằm mục đích trích xuất nhãn ngữ nghĩa từ đầu vào văn bản.

Chuỗi đầu vào X = {z¡, ,z„} là tập hợp các từ có độ dài n, được phân tách bằng thuật toán WordPiece Lớp encoder trong mô hình Transformer sử dụng cơ chế tự chú ý (self-attention) để nắm bắt thông tin ngữ cảnh cho từng token, từ đó tạo ra chuỗi nhúng ngữ cảnh (contextual embeddings).

Các chuỗi nhãn vai nghĩa sẽ được biểu diễn thông qua các phép ánh xạ Mỗi động từ sẽ có m chuỗi nhãn vai nghĩa liên quan, tạo thành một tập hợp phong phú.

T = {ti, ,tm}, trong đó, ¢; là một chuỗi nhãn vai nghĩa chứa n nhãn và có dang

Các chuỗi nhãn vai nghĩa có chiều dài tương đương với chiều dài của chuỗi đầu vào, được ánh xạ thành các vector thông qua bảng tham chiếu từ vựng nhãn vai nghĩa Những vector này sau đó sẽ được đưa vào lớp mạng Bidirectional GRU (BiGRU) để biểu diễn nhãn cho tập hợp các chuỗi nhãn.

Ta có m chuỗi nhãn vai nghĩa, gọi L; là chuỗi nhãn cho token 2;, ta có e(L;) =

CHƯƠNG 4 MÔ HÌNH HỌC BIỂU DIỄN NGỮ CẢNH NHẬN THỨC NGỮ NGHĨA

Công ty Mêkông sửa con đường cho mọi - người © © °] [| °C] © L] | E tf [ Lớp kết nói đầy đủ (fully connected) )

Ru} porwr RU] any cai 0 GRO A RU 4 Ru} “TH

binh phuc

VOA - Health

VOA

binh phuc

VOA - Health

VOA

Ngày đăng: 03/11/2024, 19:10