1. Trang chủ
  2. » Luận Văn - Báo Cáo

Liên kết thực thể cho kho văn bản có chú giải ngữ nghĩa tiếng việt

82 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Liên kết thực thể cho kho văn bản có chú giải ngữ nghĩa tiếng Việt
Tác giả Bùi Hoàng Anh
Người hướng dẫn PGS. TS. Đỗ Trung Tuấn, TS. Nguyễn Thị Minh Huyền
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Khoa học dữ liệu
Thể loại Luận văn thạc sĩ khoa học
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 82
Dung lượng 3,91 MB

Cấu trúc

  • Giới thiệu (11)
  • Kiến thức cơ sở (13)
    • 1.1 Bài toán liên kết thực thể (13)
    • 1.2 Cơ sở tri thức (15)
    • 1.3 Cơ sở tri thức Wikipedia (18)
    • 1.4 Biểu diễn từ trong xử lý ngôn ngữ tự nhiên (23)
      • 1.4.1 Kĩ thuật biểu diễn từ truyền thống (24)
      • 1.4.2 Kĩ thuật nhúng từ có ngữ cảnh (26)
  • Các phương pháp giải quyết bài toán (29)
  • liên kết thực thể (29)
    • 2.1 Các công trình liên quan (29)
    • 2.2 Mô hình hệ thống liên kết thực thể (31)
    • 2.3 Các kỹ thuật đề xuất ứng viên (33)
      • 2.3.1 Kỹ thuật dựa trên từ điển tên (33)
      • 2.3.2 Kỹ thuật khai triển dạng bề mặt của đề cập thực thể (35)
      • 2.3.3 Kỹ thuật dựa trên công cụ tìm kiếm (36)
    • 2.4 Các kỹ thuật xếp hạng thực thể ứng viên (38)
      • 2.4.1 Đặc trưng (38)
      • 2.4.2 Các kỹ thuật xếp hạng (43)
    • 2.5 Các kỹ thuật dự đoán đề cập không thể liên kết (48)
  • Xây dựng hệ thống liên kết thực thể (50)
  • cho tiếng Việt (50)
    • 3.1 Xây dựng bộ dữ liệu (50)
      • 3.1.2 Tiền xử lý (53)
    • 3.2 Xây dựng thành phần đề xuất ứng viên (54)
      • 3.2.1 Xây dựng cơ sở lưu trữ Wikipedia dưới dạng SQL (55)
      • 3.2.2 Phát triển thành phần đề xuất ứng viên (56)
    • 3.3 Xây dựng thành phần xếp hạng thực thể ứng viên (57)
    • 3.4 Xây dựng thành phần dự đoán đề cập không thể liên kết (61)
    • 3.5 Đánh giá kết quả (62)
      • 3.5.1 Bộ dữ liệu (62)
      • 3.5.2 Hệ thống (64)
  • Kết luận (67)
  • Tài liệu tham khảo (69)

Nội dung

Liên kết thực thể cho kho văn bản có chú giải ngữ nghĩa tiếng việt Liên kết thực thể cho kho văn bản có chú giải ngữ nghĩa tiếng việt

Giới thiệu

Xử lý ngôn ngữ tự nhiên (Natural Language Procesing— NLP) là một nhánh của trí tuệ nhân tạo (Artificial Intelligence — AI) Nhánh này tập trung các ứng dụng nhằm giúp các hệ thống máy tính hiểu và xử lý được ngôn ngữ của con người Xử lý ngôn ngữ tự nhiên đóng một vai trò thiết yếu trong công việc đẩy mạnh ứng dụng của công nghệ thông tin trong mọi lĩnh vực của cuộc sống.

Trích xuất thông tin là một khía cạnh quan trọng của xử lý ngôn ngữ tự nhiên và đóng một vai trò quan trọng trong việc chuyển đổi dữ liệu ngôn ngữ tự nhiên thành thông tin có ý nghĩa Trong một thế giới nơi dữ liệu văn bản và ngôn ngữ ngày càng tăng lên, khả năng tự động trích xuất thông tin từ văn bản đã trở thành một yếu tố quyết định trong việc hiểu rõ nội dung, tìm kiếm thông tin, và hỗ trợ ra quyết định.

Bài toán liên kết thực thể là một trong những chủ đề quan trọng trong lĩnh vực trích xuất thông tin Trong thời đại số hóa và dữ liệu ngày càng gia tăng, việc tự động xác định và kết nối các thực thể trong văn bản cho trước tới nguồn thông tin tương ứng đã trở thành một vấn đề cần được quan tâm Bài toán này không chỉ giúp chúng ta hiểu chính xác hơn về nội dung của văn bản mà còn cung cấp các ứng dụng quan trọng trong các lĩnh vực tìm kiếm thông tin, tổ chức dữ liệu, và hỗ trợ ra quyết định.

Bài toán liên kết thực thể đã được phát biểu và nghiên cứu từ sớm trên toàn thế giới cũng như đã đạt được những kết quả nhất định ở các ngôn ngữ Anh, Pháp, TrungQuốc Đối với tiếng Việt, mặc dù là ngôn ngữ thuộc nhóm ngôn ngữ phổ biến với ít nhất 50 triệu người sử dụng hằng ngày, nhưng các nghiên cứu xoay quanh bài toán này còn ít và chưa mang lại kết quả thực tiễn Vì vậy, luận văn này sẽ tập trung tìm hiểu và trình bày liên kết thực thể cho tiếng Việt.

Ngoài phần giới thiệu và kết luận, cấu trúc luận văn sẽ bao gồm ba chương:

• Chương 1 Kiến thức cơ sở: Chương này sẽ phát biểu bài toán liên kết thực thể và trình bày nhưng kiến thức cơ bản nhằm phục vụ cho những chương sau Cụ thể là các kiến thức về cơ sở tri thức, Wikipedia và các kĩ thuật biểu diễn từ trong xử lý ngôn ngữ tự nhiên.

• Chương 2 Các phương pháp giải quyết bài toán liên kết thực thể: Chương này trình bày tổng quan các phương pháp tiếp cận giải quyết bài toán liên kết thực thể.

• Chương 3 Xây dựng hệ thống liên kết thực thể cho tiếng Việt: Chương này trình bày cách xây dựng bộ dữ liệu và hệ thống liên kết thực thể cho tiếng Việt và đánh giá kết quả đạt được.

Kiến thức cơ sở

Bài toán liên kết thực thể

Bài toán liên kết thực thể (Entity Linking), hay còn được gọi là phân biệt định danh thực thể (Named Entity Disambiguation) là một bài toán quan trọng trong lĩnh vực hiểu ngữ nghĩa văn bản Bài toán này có mục tiêu là xác định và kết nối các thực thể được đề cập trong văn bản (hay còn gọi là đề cập thực thể —Entity mention) với các thực thể cụ thể trong cơ sở tri thức (Knowledge Base) Bài toán này có thể được phát biểu hình thức như sau:

Cho hệ cơ sở tri thức (Knowledge base) chứa một tập hợp các thực thểE và một văn bản chứa một tập hợp đề cập thực thể (Named entity mentions)M Nhiệm vụ của một hệ thống liên kết thực thể là với một đề cập thực thểm∈M được xác định trước, hệ thống cần ánh xạmtới thực thể tương ứng e∈E Bên cạnh đó, tồn tại khả năng một số đề cập thực thểm không liên quan tới bất kỳ thực thể nào trong hệ cơ sở tri thức. Đề cập thực thể đó được xác định là đề cập không thể liên kết (Unlinkable mention) và gán nhãnNIL.

Dữ liệu vào ra trong bài toán liên kết thực thể bao gồm:

• Dữ liệu đầu vào ( Input ): là một đoạn văn bản, trong đó chứa tập hợp các đề cập thực thểM.

• Dữ liệu kết quả ( Output ): là một biểu diễn của thực thểe∈E tương ứng với đề cập hoặcNILvới trường hợp đề cập không thể liên kết.

Ví dụ với đề cập thực thể làNgatrong văn bản đầu vào là"Quân đội Ukraine thống kê, chỉ trong vòng 24 giờ qua, phía Nga đã mất ít nhất 21 xe tăng, 23 xe chiến đấu bọc thép và 8 khẩu pháo trong các cuộc giao tranh ở nước láng giềng." Hệ thống sẽ trả về liên kết tới nhà nước Liên bang Nga 1 trên Wikipedia. Để đánh giá độ chính xác của một hệ thống liên kết thực thể, các nhà nghiên cứu sử dụng độ chính xác top 1 (top-1 accuracy— Acc@1).

Việc giải quyết được bài toán liên kết thực thể mang lại nhiều lợi ích quan trọng, trong số đó có thể kể tới:

• Giúp máy tính hiểu được nội dung văn bản: Bằng cách liên kết thực thể, máy tính có thể hiểu rõ về nội dung cũng như ngữ cảnh của văn bản Điều này giúp ích cho việc trích xuất thông tin, tổ chức dữ liệu hay tạo ra một biểu đồ tri thức từ văn bản.

• Tạo mối liên hệ giữa dữ liệu văn bản và tri thức bên ngoài: Bài toán này giúp xây dựng cầu nối giữa thông tin trong văn bản và tri thức bên ngoài như Wikipedia, Wikidata hay các nguồn tri thức khác.

• Kiểm tra tính chính xác của văn bản: Khi mối liên hệ giữa dữ liệu văn bản với tri thức bên ngoài được hình thành, máy tính có thể kiểm tra thông tin trong văn bản có chính xác hay không Nếu không, máy tính có thể đưa ra lý do bằng cách

Bài toán liên kết thực thể đã sớm được đề cập và tìm hiểu một cách sâu rộng trên phạm vi toàn cầu, với những thành công đáng kể trong việc xử lý ngôn ngữ Anh, Pháp và Trung Quốc Tuy nhiên, dù tiếng Việt thuộc nhóm ngôn ngữ có lượng người sử dụng lớn, với hơn 50 triệu người hàng ngày, sự quan tâm đối với bài toán này trong ngôn ngữ này vẫn còn hạn chế, và kết quả nghiên cứu chưa thật sự mang lại giá trị áp dụng thực tiễn Do đó, luận văn này quyết tâm khám phá và làm sáng tỏ vấn đề liên kết thực thể đối với tiếng Việt.

Cơ sở tri thức

Một cơ sở tri thức (Knowledge base — KB) [1] hay còn được gọi là đồ thị tri thức (Knowledge graph) là một kho tri thức về thế giới thực được lưu trữ và truy xuất bởi máy tính Một cơ sở tri thức bao gồm các thông tin của các thực thể (Entity) (Ví dụ: tổ chức, người, địa điểm, ) và thông tin về mối quan hệ giữa các thực thể đó (Ví dụ: thực thể A là nơi sinh của thực thể B hay thực thể C là người sáng lập của thực thể D, ) Cơ sở tri thức là nền tảng trong các ứng dụng như công cụ tìm kiếm (Search engine), trả lời câu hỏi (Question answering) và nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên hay trí tuệ nhân tạo khác Trong lĩnh vực công nghiệp, nhiều tập đoàn lớn như Amazon, Google, Microsoft, Alibaba, Tencent, đang tự xây dựng và sử dụng hệ cơ sở tri thức riêng và coi đó như một tài sản trí tuệ quan trọng.

Cơ sở tri thức là một thành phần cơ bản trong bài toán liên kết thực thể Nó cung cấp thông tin về các thực thể (Ví dụ: Hồ Chí Minh, Thành phố Hồ Chí Minh) đi kèm theo là phân loại ngữ nghĩa của thực thể đó (Ví dụ: Hồ Chí Minh thuộc nhóm Anh hùng dân tộc Việt Nam, Đảng viên Đảng Cộng sản Việt Nam, Lãnh tụ cộng sản,

Trong khi Thành phố Hồ Chí Minh thuộc nhóm thành phố của Việt Nam, Đông Nam Bộ, ) Một số cơ sở tri thức còn cung cấp thông tin về mối quan hệ giữa các thực thể (Ví dụ: Thành phố Hồ Chí Minh được đặt theo tên Chủ tịch Hồ Chí Minh - Chủ tịch nước đầu tên của Việt Nam Dân chủ Cộng Hòa)

Dưới đây là một số cơ sở tri thức được sử dụng phổ biến [2]:

• Wikipedia: Wikipedia là một bách khoa toàn thư mở, đa ngôn ngữ mà mọi người đều có thể tham gia đóng góp Cơ sở tri thức này bắt đầu được đưa vào hoạt động từ năm 2001 bởi Jimmy Wales và Larry Sanger, khởi đầu với phiên bản tiếng Anh.

Cho tới tháng 3/2023, Wikipedia đã có hơn 300 phiên bản ngôn ngữ với tổng cộng hơn 60 triệu bài viết 2 ( trong đó, Tiếng Việt chiếm tới 1.2 triệu bài 3 Theo thống kê năm 2020 của Alexa 4 , Wikipedia là một trong 14 trang web phổ biến nhất thế giới Wikipedia khuyến khích cộng đồng đóng góp, bổ sung nhằm làm phong phú nội dung Các bài viết trên Wikipedia được sửa đổi và cập nhật liên tục Các thay đổi này sẽ được ghi lại và theo dõi bởi đội ngũ quản trị nhằm tránh sự phá hoại.

Dưới góc nhìn là một cơ sở tri thức, Wikipedia được đánh giá là có độ bao phủ các thực thể lớn và chứa một lượng thông tin khổng lồ về các thực thể Bên cạnh đó, cấu trúc của Wikipedia còn cung cấp một loạt các đặc trưng hữu dụng cho việc liên kết thực thể ví dụ như trang thực thể (Entity page), thể loại (Article category), trang điều hướng (Redirect page), trang làm rõ (Disambiguation pages),

• YAGO: YAGO [3] xuất phát là một trong những dự án học thuật của Viện Tin học Max Planck ở Đức, đây cũng là một nguồn tri thức lớn và phổ biến trong cộng đồng nghiên cứu trí tuệ nhân tạo Ý tưởng chính của YAGO là thu thập thông tin về các thực thể và quan hệ giữa các thực thể một cách tự động, sau đó tổ chức lại dưới những cấu trúc chặt chẽ Tri thức bên trong YAGO được thu thập kết hợp giữa bách khoa toàn thư Wikipedia và kho từ vựng trực tuyến WordNet Mặc dù YAGO là một cơ sở dữ liệu đa ngôn ngữ, nhưng khả năng hỗ trợ giữa các ngôn ngữ là không đồng đều (tiếng Anh được hỗ trợ chủ yếu) Bên cạnh đó, do tổng hợp lại tri thức một cách thứ cấp từ Wikipedia, số lượng thực thể của YAGO còn hạn chế (khoảng 50 triệu 5 , trong khi Wikipedia là 60 triệu 6 ).

2 https://meta.wikimedia.org/wiki/List_of_Wikipedia

• DBpedia: DBpedia [4] được biết tới là một dự án mã nguồn mở phát triển với mục tiêu phục vụ cộng đồng Cũng giống như YAGO, mục tiêu của dự án này là chuyển đổi tri thức từ bách khoa toàn thư Wikipedia thành một nguồn dữ liệu có cấu trúc chặt chẽ hơn Do được xây dựng theo mô hình dữ liệu RDF (Resource

Description Framework), DBpedia đã gây ấn tượng mạnh bằng việc có thể trả lời những truy vấn phức tạp mà Wikipedia không thể giải quyết như: Tìm tất cả các dòng sông chảy vào sông Rai nơ (Rhine) có độ dài lớn hơn 100 dặm, hay tìm tất cả các nhạc soạn nhạc người Ý sinh vào thế kỷ 18 Thống kê cho tới năm 2023, DBpedia đã trích xuất tri thức từ 140 ngôn ngữ 7 Đặc biệt với tiếng Anh, DBpedia đã trích xuất hơn 4.58 triệu thực thể (so với 6.63 triệu bài viết trên Wikipedia 8 ).

Tuy nhiên đối với các ngôn ngữ khác nói chung và tiếng Việt nói riêng, con số này còn khá khiêm tốn Mặc dù vậy, do tính chất là dự án mã nguồn mở và được sự quan tâm của cộng đồng nghiên cứu, DBpedia vẫn mang lại nhiều hứa hẹn về ứng dụng rộng rãi trong tương lai.

• Freebase: Freebase [5] là hệ thống cơ sở dữ liệu trực tuyến được thiết kế để trở thành một bách khoa toàn thư kiến thức về thế giới, trong khi các kiến thức được tổng quan, dễ dàng mở rộng, các thực thể được chuẩn hóa rõ ràng Dữ liệu tri thức của Freebase được thu thập và kết hợp từ Wikipedia và một số nguồn thông tin khác để đảm bảo tính tổng quan Bên cạnh đó, Freebase tổ chức dữ liệu dưới dạng đồ thị tri thức, trong đó các thực thể và mối quan hệ giữa chúng được biểu diễn dưới dạng RDF Google đã tiếp quản dự án Freebase từ năm 2010 với mục đích sử dụng Freebase làm tài nguyên đầu vào cho dự án Google Knowledge Graph [6] Mặc dù Freebase đã ngừng phát triển từ 2015 nhưng với kho dữ liệu đồ sộ bao gồm 43 triệu thực thể [2], Freebase vẫn là một cơ sở tri thức được cộng đồng nghiên cứu sử dụng phổ biến.

Ngoài các cơ sở tri thức đã đề cập trên, còn có nhiều đại diện khác như BabelNet [7],

7 https://www.dbpedia.org/resources/knowledge-graphs/

8 https://meta.wikimedia.org/wiki/List_of_Wikipedias

Cơ sở tri thức Wikipedia

Do sở hữu số lượng thực thể khổng lồ, hàm lượng tri thức cho mỗi thực thể lớn cũng như luôn được cập nhật bởi cộng đồng, Wikipedia đang là cơ sở tri thức được dùng để tham chiếu phổ biến nhất trong các hệ thống liên kết thực thể Wikipedia bao gồm các trang thông tin Các trang thông tin bao gồm các thành phần như nội dung về thực thể, hộp thông tin, thể loại, chú thích nguồn gốc, Từ những trang thông tin và thành phần đó, chúng ta có thể trích xuất và tổng hợp thành những đặc trưng khác nhau Dưới đây sẽ trình bày về các đặc trưng được luận văn tập trung khai thác để giải quyết bài toán liên kết thực thể:

1 Trang thực thể ( Entity page ): Trang thực thể (hay còn gọi là bài viết) là nơi chứa thông tin chi tiết của các đối tượng Trong hầu hết các trường hợp, tên của trang thực thể cũng là tên biểu diễn chính của thực thể đó Đối với bài toán liên kết thực thể, mỗi trang thực thể sẽ đại diện cho một thực thể liên kết Hình 1.1 thể hiện bài viết về thực thểTrọng lượngtrên Wikipedia.

2 Hộp thông tin tổng quan ( Infobox ): Đây là một thành phần trong trang thực thể.

Thành phần này cung cấp các thông tin ngắn gọn về đối tượng hay chủ đề mà bài viết đang nói tới Thông tin tổng quan thường thường được đặt ở đầu trang để giúp người đọc nắm bắt thông tin nhanh chóng Hình 1.2a minh họa hộp thông tin của bài viết về hệ điều hànhRed Hat Enterprise Linux 9 Tuy nhiên, không phải bài viết nào cũng có hộp thông tin tổng quan Ví dụ bài viết vềRISC 10 như trong hình 1.2b Do chứa nhiều thông tin tóm tắt về thực thể, các hệ thống liên kết thực thể sẽ tập trung phân tích và thu thập những thông tin từ thành phần này trong bài viết.

(a) Ví dụ về hộp thông tin (b) Bài viết không có hộp thông tin

Hình 1.2: Ví dụ về hộp thông tin

3 Trang đổi hướng ( Redirect page ): Thực tế cho thấy, một thực thể thường sẽ có nhiều tên gọi Ví dụ:Sài Gòn là một tên gọi khác của Thành phố Hồ Chí Minh trước năm 1976 Trang đổi hướng được thiết kế đi kèm với một tên thay thế, tên thay thế này sẽ được dùng để chỉ tới thực thể đã tồn tại trong Wikipedia Ví dụ trong hình 1.3, bài viết có tiêu đềSài Gònsẽ tự động đổi hướng tới bài viếtThành phố Hồ Chí Minh.

9 https://vi.wikipedia.org/?curidD692

10 https://vi.wikipedia.org/?curidE615

Hình 1.3: Ví dụ về trang đổi hướng

4 Trang phân giải nhập nhằng ( Disambiguation page ): Trong Wikipedia, trang phân giải nhập nhằng được xây dựng để giải quyết tình huống một từ hoặc một cụm từ có nhiều ý nghĩa (hay có thể ám chỉ tới nhiều đối tượng khác nhau) Mục tiêu của trang làm rõ này là hỗ trợ người đọc chọn ra ý nghĩa cụ thể mà họ đang tìm kiếm.

Ví dụ về trang phân giải nhập nhằng trong hình 1.4a, từ Tóc Tiên có thể là một cách gọi khác của loài rong gai (Hydrilla verticillata), một tên gọi khác của chòm sao Hậu Phát (Coma Berenices) hoặc có thể là tên một ca sĩ nhạc trẻ Nguyễn Khoa Tóc Tiên Đối với bài toán liên kết thực thể, trang làm rõ không chỉ dừng lại ở việc hỗ trợ giải quyết sự nhầm lẫn, mà còn tỏ ra đặc biệt hữu dụng trong việc tìm dạng đầy đủ của từ viết tắt Hình 1.4b minh họa khả năng tìm dạng đầy đủ của từAP.

(a) Ví dụ về trang phân giải nhập nhằng

(b) Ví dụ về khả năng hỗ trợ tìm dạng đầy đủ của từ viết tắt Hình 1.4: Ví dụ về trang phân giải nhập nhằng

5 Từ in đậm trong đoạn văn bản đầu tiên ( Bold phrases from the first para- graph ): Wei và cộng sự đã nhận xét [2] trong hầu hết các trường hợp, đoạn văn bản đầu tiên trong một bài viết Wikipedia sẽ mang nội dung tổng hợp của cả bài viết đó Đặc biệt, trong đoạn văn bản đó sẽ trình bày một số từ dưới dạng in đậm.

Varma và cộng sự [11] đã thực hiện quan sát và đưa ra kết luận rằng các từ in đậm này sẽ rơi vào các trường hợp: biệt danh (Nick name), bí danh (Alias name), tên viết tắt (Abbreviation) hoặc tên đầy đủ (Full names) của thực thể Hình 1.5 đưa ra ví dụ với bài viết về Chu Văn An trên Wikipedia, những từ được in đậm bao gồm:Chu An,Tiều Ẩn,Linh Triệt,Văn Trinh côngvàChu Văn Trinh Các tên trên đều là cách gọi khác của nhà giáo Chu Văn An Với đặc trưng trên, từ in đậm trong đoạn văn bản đầu tiên mang nhiều ý nghĩa trong việc tạo tri thức cơ sở cho hệ thống liên kết thực thể Từ đó, cải thiện hiệu suất cũng như hiệu năng của hệ thống.

Hình 1.5: Ví dụ về từ in đậm trong đoạn văn bản đầu tiên

6 Liên kết trong các bài viết Wikipedia ( Hyperlinks in Wikipedia article ): Một bài viết trên Wikipedia thông thường sẽ chứa nhiều liên kết Mỗi liên kết này sẽ bao gồm nhiều vai trò: liên kết giữa các bài viết, cung cấp thông tin bổ sung hay chứng minh nguồn gốc thông tin Đối với bài toán liên kết thực thể, các liên kết này đóng vai trò quan trọng trong việc tạo ra mạng lưới giúp liên kết thông tin liên quan Bên cạnh đó, văn bản neo (anchor text) của liên kết cũng được tận dụng như một nguồn từ đồng nghĩa hay biến thể tên Ví dụ trong hình 1.6, văn bản neo

"Cộng hòa Xã hội chủ nghĩa Việt Nam" trong bài viết về Hà Nội cũng là một biến thể tên của thực thể "Việt Nam".

Hình 1.6: Ví dụ về liên kết trong bài viết Wikipedia

Biểu diễn từ trong xử lý ngôn ngữ tự nhiên

Trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và bài toán liên kết thực thể nói riêng, nhúng từ (embedding) là quá trình biến đổi các từ hoặc văn bản trở thành các véc-tơ (thường các véc-tơ này sẽ có số chiều thấp hơn nhiều lần so với số từ trong từ điển) với mục đích bảo toàn các đặc trưng quan trọng của văn bản Với việc biểu diễn văn bản dưới dạng véc-tơ số học, nhúng từ giúp các mô hình máy tính có thể làm việc với ngôn ngữ một cách hiệu quả hơn.

Các kỹ thuật nhúng từ có thể được phân loại thành các kỹ thuật nhúng từ truyền thống (Traditional word embedding) và các kỹ thuật nhúng từ có ngữ cảnh (Contextual embedding)

1.4.1 Kĩ thuật biểu diễn từ truyền thống

Kĩ thuật biểu diễn từ vựng truyền thống tạo ra các biểu diễn cố định cho từng từ dựa trên tần suất xuất hiện trong dữ liệu Các phương pháp biểu diễn từ vựng truyền thống thường đơn giản và dễ hiểu do nó thường dựa trên thống kê và không sử dụng các mạng nơ-ron (neural) học sâu Tuy nhiên, các kỹ thuật biểu diễn từ vựng truyền thống có hạn chế trong việc hiểu được ngữ cảnh và sự tương tác phức tạp giữa các từ trong văn bản Dưới đây là một số đại diện tiêu biểu cho nhóm kỹ thuật biểu diễn từ vựng này:

• Word2vec: Được phát triển bởi Tomas Mikolov và đồng nghiệp Google năm

2012, Word2vec [12] là một công cụ để biểu diễn ngôn ngữ quan trọng trong xử lý ngôn ngữ tự nhiên Mục tiêu của Word2vec là biểu diễn từng từ trong văn bản thành một véc-tơ số học Word2vec phát triển dựa trên những nguyên lý sau:

– Các từ xuất hiện trong những văn cảnh giống nhau thì thường có ý nghĩa gần nhau.

– Những từ có nghĩa giống nhau sẽ có véc-tơ biểu diễn gần nhau trong một không gian nhiều chiều.

Word2vec sử dụng hai kiểu mô hình sau để học véc-tơ từ:

– Continuous bag-of-words ( CBOW ): Trong mô hình này, các từ xung quanh sẽ được sử dụng để dự đoán đầu vào Mô hình này thường nhanh hơn và hiệu quả hơn trong việc học từ vựng cho các tập dữ liệu lớn.

– Continuous skip-gram: Trong mô hình skip-gram, một từ đầu vào sẽ được sử dụng để dự đoán các từ xung quanh nó trong văn bản.

Cho một đoạn văn bảnw(t−2),w(t−1),w(t),w(t+1),w(t+2), hình 1.7 mô tả cách kỹ thuật Word2Vec học biểu diễn véc-tơ từ.

(a) CBOW (b) Continous Skip-gram Hình 1.7: Mô hình học véc-tơ từ của Word2vec

• Glove: GloVe [13] (Global Vectors for Word Representation) được giới thiệu bởi

Jeffrey Pennington, Richard Socher và Christopher D Manning vào năm 2014.

GloVe là một trong những phương pháp quan trọng để biểu diễn từ vựng và đã đóng góp đáng kể vào tiến bộ của xử lý ngôn ngữ tự nhiên Các ứng dụng của GloVe xuất hiện rộng rãi trong nhiều tác vụ xử lý ngôn ngữ tự nhiên, bao gồm phân loại văn bản, dự đoán từ vựng, dịch máy, tóm tắt văn bản và nhiều tác vụ khác GloVe là một phương pháp biểu diễn từ vựng truyền thống, tạo ra các vector đặc trưng cho từng từ trong từ điển.

Glove là một mô hình bình phương tối thiểu có trọng số cụ thể (weighted least squares model) Mô hình này được huấn luyện không giám sát với ma trận chứa tần suất hai từ xuất hiện cùng nhau GloVe chỉ tập trung huấn luyện trên các phần tử khác 0 thay vì toàn bộ ma trận Tại thời điểm ra mắt, Glove đã đạt hiệu quả vượt trội so với các mô hình biểu diễn từ có từ trước như Word2Vec hay mô hình phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) [14]

Do có hiệu suất tính toán tốt hơn Word2Vec, Glove trở thành lựa chọn phù hợp cho các tập dữ liệu lớn.

• FastText: FastText [15] là một phương pháp biểu diễn từ vựng trong xử lý ngôn ngữ tự nhiên được giới thiệu bởi Facebook AI Research Phương pháp này là một sự tiến bộ so với các biểu diễn từ vựng truyền thống như Word2Vec hay GloVe và nó đã đạt được sự quan tâm lớn từ cộng đồng NLP Về bản chất, FastText là một dạng mở rộng của Word2Vec Một trong những điểm khác biệt giữa FastText và Word2Vec là khả năng biểu diễn các từ không có trong từ điển bằng cách kết hợp biểu diễn của các thành phần nhỏ hơn (Subword unit) của từ đó Điều này giúp FastText xử lý các từ mới (chưa xuất hiện trong quá trình huấn luyện), đặc biệt là trong các ngôn ngữ với nhiều từ vựng phức tạp Bên cạnh đó, điểm mạnh của FastText còn nằm ở tiết kiệm tài nguyên và thời gian tính toán Điều này làm cho FastText trở thành một lựa chọn phổ biến trong các ứng dụng cần tốc độ xử lý trong thời gian thực.

1.4.2 Kĩ thuật nhúng từ có ngữ cảnh

Kĩ thuật biểu diễn từ vựng phụ thuộc ngữ cảnh là một loại biểu diễn từ vựng trong xử lý ngôn ngữ tự nhiên được tạo ra dựa trên ngữ cảnh của một từ trong văn bản Điều này có nghĩa là biểu diễn của một từ được xây dựng dựa trên các từ vựng xung quanh nó trong câu hoặc đoạn văn bản cụ thể.

Biểu diễn của một từ không chỉ đại diện cho từ mà nó còn chứa thông tin về ngữ cảnh của từ vựng Điều này có nghĩa là biểu diễn của một từ có thể thay đổi tùy thuộc vào cách nó xuất hiện trong câu Ví dụ, cùng một từ có thể có biểu diễn khác nhau trong hai câu khác nhau nếu ngữ cảnh của chúng khác nhau.

Các mô hình sử dụng những kỹ thuật này thường có hiệu suất cao hơn [16] trong nhiều tác vụ so với các biểu diễn từ vựng truyền thống như Word2Vec hoặc FastText. biểu diễn từ vựng tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên Được giới thiệu tại OpenAI vào năm 2018, ELMo đã đạt được sự quan tâm lớn trong cộng đồng NLP và đã tạo ra những cải tiến đáng kể trong việc biểu diễn từ vựng và xử lý ngôn ngữ tự nhiên Kiến trúc của ELMo dựa trên mạng LSTM (Long Short-

Term Memory) Nó được đào tạo trên một tập dữ liệu lớn chứa văn bản từ Internet để hiểu cấu trúc ngôn ngữ và kiến thức từ vựng ELMo sử dụng mạng nơ-ron học sâu (deep neural network) để tạo ra biểu diễn động cho từng từ dựa trên cả ngữ cảnh trước và sau từ đó ELMo đã được sử dụng rộng rãi trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên nói riêng và trí tuệ nhân tạo nói chung Những ứng dụng này bao gồm phân loại văn bản, dịch máy, ghi nhãn từ vựng, và nhiều tác vụ khác.

Biểu diễn từ vựng động của nó đã giúp cải thiện hiệu suất của các mô hình trên nhiều tác vụ xử lý ngôn ngữ tự nhiên khác nhau.

• BERT: BERT [18] (Bidirectional Encoder Representations from Transformers) là một mô hình học sâu nổi tiếng trong lĩnh vực xử lý ngôn ngữ tự nhiên BERT được nhóm chuyên gia của Google đề xuất vào năm 2018 và được coi như là một bước phát triển đột phá về khả năng hiểu và biểu diễn ngôn ngữ BERT nổi bật với hai tính năng chính:

– Khả năng hiểu và sử dụng thông tin tới từ hai phía của ngữ cảnh (Bidirectional

– Khả năng tái sử dụng: BERT được học tổng quát (Pre-training) trên một lượng lớn dữ liệu ngôn ngữ tự nhiên trước khi được điều chỉnh phù hợp với từng nhiệm vụ hạ nguồn (Downstream tasks) như dịch máy (Machine translation) hay dự đoán từ tiếp theo (Next Sequence Prediction).

Mô hình BERT sinh ra đã giải quyết nhiều vấn đề xử lý ngôn ngữ tự nhiên với kết quả vượt trội [19] như phân loại văn bản (Text classification), phân tích văn bản (Text analytics), Một vài đại điện BERT hỗ trợ tiếng Việt có thể kể tới như XLM-RoBERTa [20], PhoBERT [21], viBERT [22] hay BERT multilingual [18].

liên kết thực thể

Các công trình liên quan

Việc giải quyết bài toán liên kết thực thể đã được quan tâm và tập trung nghiên cứu từ sớm Đặc biệt trong giai đoạn 2009-2013, hội thảo TAC KBP English Entity Linking [23] đã tổ chức và công bố nhiều công trình có kết quả ấn tượng Một số nghiên cứu nổi bật trong đó là:

• Nhóm nghiên cứu của Han và cộng sự [24] đã giải quyết bài toán liên kết thực thể bằng tiếng anh đạt được độ chính xác 86% trên bộ dữ liệu TAC-KBP2009.

• Cũng trên bộ dữ liệu đó, LINDEN [25] một bộ công cụ liên kết thực thể đã được nhóm nghiên cứu của Shen và cộng sự công bố đã đạt 84.3% độ chính xác.

Trong thời gian gần đây, đặc biệt là sau khi kiến trúc Transformers [26] và mô hình BERT [18] được công bố, bài toán này được quan tâm trở lại và đã có nhiều kết quả mới đáng chú ý Nổi bật trong đó là nghiên cứu của hai tác giả Jonathan và Olivier [27] từ OpenAI Họ đã đưa ra một hệ thống liên kết thực thể hoàn chỉnh Hệ thống đã đạt độ chính xác 90.85% và 94.88% lần lượt trên các bộ dữ liệu TAC-KBP2010 và CoNLL. Đối với các ngôn ngữ phổ biến khác như tiếng Trung và tiếng Tây Ba Nha, vào năm 2018, tác giả Sil và cộng sự [28] đã đưa ra một mô hình liên kết thực thể đa ngôn ngữ Mô hình này đang được đánh giá là có độ chính xác tốt nhất trên bộ dữ liệu TAC-KBP2015 trong đó: tiếng Trung (84.4%) và tiếng Tây Ba Nha (82.3%).

Mặc dù đã có những thành tựu đáng kể, các nghiên cứu hiện tại chủ yếu tập trung vào việc liên kết thực thể trong những ngôn ngữ phổ biến Trong khi đó, bài toán liên kết thực thể trong tiếng Việt vẫn chưa được tập trung nghiên cứu và giải quyết Tình trạng này xảy ra có thể do nhiều yếu tố như tập dữ liệu nhỏ hay sự thiếu nguyên tắc trong việc đặt tên của tiếng Việt (điều này dẫn tới sự đa dạng lớn về tên thực thể).

Tuy vậy, trong thời gian gần đây, bài toán này đang được cộng đồng nghiên cứu dành nhiều sự chú ý hơn:

• Tác giả Lê Thị Hạnh với nghiên cứu về liên kết thực thể [29] đạt độ chính xác 48.5% với bộ dữ liệu tự xây dựng, bao gồm 9432 đề cập thực thể được trích xuất từ 383 bài báo trải dài trên nhiều lĩnh vực (Thể thao, giáo dục, đời sống, khoa học - tự nhiên, ) Bộ dữ liệu đánh giá đề cập ở trên không được công khai.

• Nhóm nghiên cứu của Khánh Duy và cộng sự [30] đã trình bày, giải quyết bài toán liên kết thực thể và xây dựng một hệ thống liên kết thực thể hoàn thiện Đồng thời,nhóm tác giả còn xây dựng bộ dữ liệu đánh giá từ 524 tweet tiếng Việt, chứa 1061 đề cập thực thể Tuy nhiên, bộ dữ liệu này không được chia sẻ Hệ thống liên kết toán này vẫn còn nhiều thách thức lớn như phạm vi cơ sở tri thức hạn chế, ngữ cảnh phức tạp, tính đa nghĩa của ngôn ngữ

Do vậy, việc nghiên cứu và tập trung giải quyết bài toán liên kết thực thể đóng vai trò quan trọng đối với việc thúc đẩy sự phát triển của xử lý ngôn ngữ tự nhiên Trong chương này, luận văn sẽ trình bày chi tiết về kiến trúc của hệ thống liên kết thực thể cũng như các thành phần liên quan Bên cạnh đó, với mỗi một thành phần trong hệ thống liên kết thực thể, luận văn sẽ trình bày các kỹ thuật phổ biến đang được áp dụng kèm theo nhận xét Nội dung chương này là cơ sở kỹ thuật cho phát triển hệ thống liên kết thực thể cho tiếng Việt.

Mô hình hệ thống liên kết thực thể

Hình 2.1 minh họa tổng quát một hệ thống liên kết thực thể với các thành phần chính.

Khối đề xuất ứng viên

Khối xếp hạng thực thể ứng viên

Khối dự đoán đề cập không thể liên kết Đề cập thực thể Thực thể liên kết

Hệ thống liên kết thực thể

Hình 2.1: Mô hình hệ thống liên kết thực thể

• Thành phần đề xuất thực thể ứng viên ( Candidate Entity Generation ): Thành phần đề xuất thực thể ứng viên là một thành phần không thể thiếu trong việc xây dựng một hệ thống liên kết thực thể Nhiệm vụ chính của thành phần này là xác định các thực thể ứng viên tiềm năng Kết quả của quá trình xử lý này là một danh sách các thực thể ứng viên có khả năng liên kết tới đề cập thực thể đầu vào Dưới đây là mô tả công việc của thành phần xử lý này:

– Xử lý văn bản đầu vào: Bước đầu tiên, thành phần này sẽ thực hiện các bước tiền xử lý (tùy theo yêu cầu của hệ thống như: bỏ các kí tự đặc biệt, chuyển đối chữ hoa sang chữ thường và ngược lại, ) Từ đó, hệ thống sẽ trích xuất đề cập thực thể.

– Tạo danh sách thực thể ứng viên: Dựa trên đề cập thực thể và văn bản đầu vào, thành phần đề xuất ứng viên sẽ tìm kiếm trong cơ sở dữ liệu (hoặc có thể kết hợp một số tài nguyên ngôn ngữ tự nhiên khác) và đưa ra các thực thể có khả năng liên kết.

• Thành phần xếp hạng thực thể ứng viên ( Candidate Entity Ranking ): Trong liên kết thực thể, thành phần xếp hạng thực thể là một thành phần xử lý quan trọng để xác định xem các thực thể ứng viên nào nên được liên kết với đề cập thực thể trong văn bản Trong hầu hết các trường hợp, do sự không rõ ràng của đề cập thực thể (một đề cập thực thể có thể liên quan tới nhiều thực thể khác nhau), danh sách thực thể ứng viên thường là số nhiều Vai trò của thành phần này là đánh giá và xếp hạng các thực thể ứng viên trong danh sách, từ đó tìm ra thực thể có khả năng liên kết lớn nhất Với dữ liệu đầu vào là một danh sách các thực thể liên kết, các bước cơ bản trong quá trình xử lý của thành phần này bao gồm:

– Tính điểm tương quan cho từng thực thể ứng viên: Mỗi ứng viên sẽ được tính điểm dựa trên các yếu tố như độ tương tự giữa đề cập thực thể và mô tả thực thể, tần suất xuất hiện của thực thể trong dữ liệu, và các thông tin khác liên quan Điểm này sẽ đại diện cho sự tương quan (hay khả năng có thể liên kết) của thực thể ứng viên với đề cập.

– Xếp hạng: Sau khi tính điểm cho tất cả các thực thể ứng viên, hệ thống sẽ sắp xếp các thực thể ứng viên này theo giá trị của điểm số Các thực thể ứng viên có điểm số cao nhất sẽ được xem xét là các ứng viên ưu tiên để liên kết với đề nhiên để cải thiện độ chính xác và hiệu suất của hệ thống, sự xuất hiện của thành phần này đóng góp ý nghĩa quan trọng Trong trình tự xử lý, thành phần xác định đề cập không thể liên kết nhận kết quả từ thành phần xếp hạng đề xuất là đầu vào.

Kết quả sẽ là đáp án cho những câu hỏi:

– Liệu thực thể ứng viên tốt nhất hệ thống đang có thực sự là thực thể liên kết không?

– Thực thể liên kết có nằm trong cơ sở dữ liệu mà hệ thống đang có không?

Các kỹ thuật đề xuất ứng viên

Quá trình tạo ra danh sách thực thể ứng viên là bước không thể thiếu trong việc phát triển một hệ thống liên kết thực thể Công việc này nhằm mục đích sinh ra một tập hợp các thực thể ứng viên, mỗi thực thể có khả năng liên kết tới đề cập thực thể trong văn bản đầu vào Phần tiếp theo của luận văn sẽ giới thiệu và phân tích các phương pháp đã được công bố để giải quyết vấn bài toán này.

2.3.1 Kỹ thuật dựa trên từ điển tên

Các kỹ thuật dựa trên từ điển tên (Name Dictionary Based Techniques) là một nhóm các kỹ thuật quan trọng trong quá trình tạo ra danh sách thực thể ứng viên Về tổng quát, các kỹ thuật dựa trên từ điển tên sẽ thực hiện so khớp chuối giữa đề cập thực thể với dữ liệu trong hệ cơ sở tri thức Do cách tiếp cận đơn giản và trực quan, kỹ thuật này là nền tảng cho việc tìm kiếm các thực thể ứng viên của các hệ thống liên kết thực thể.

Ví dụ với Wikipedia, kiến trúc của hệ tri thức này cung cấp một loạt các tính năng cho việc xây dựng, tìm kiếm các thực thể có khả năng liên quan như: trang thực thể,trang đổi hướng, trang làm rõ, từ in đậm trong đoạn văn bản đầu tiên, liên kết trong bài viết, Mỗi thành phần trên có thể cung cấp một hoặc nhiều biến thể tên Trong đó, một biến thể tên là một tên gọi khác của thực thể Ví dụ, các biến thể này có thể là: tên riêng, tên cũ, tên viết tắt, biệt danh,

Hình 2.2 là một minh họa cho việc một thực thể có nhiều tên gọi khác Bài viết về trạng nguyên Mạc Đĩnh Chi 1 ngoài cung cấptên, nó còn đề cập tới nhiều tên gọi khác như:tên gốc, tên đầy đủ, tên tự, tên hiệu, thụy hiệu.

Hình 2.2: Một số biến thể tên của Mạc Đĩnh Chi

Từ những nguồn dữ liệu trên, hệ thống liên kết thực thể có nhiệm vụ tạo từ điển tên từ cơ sở tri thức bằng cách xây dựng thủ công hoặc tự động tìm kiếm và bóc tách Tiếp theo, từ điển tên sẽ được biểu diễn trong hệ thống liên kết thực thể dưới dạng một bộ các cặp bao gồm khóa (key) và giá trị (value) Trong đó, khóa sẽ là tên thực thể (hoặc một thông tin đại diện cho thực thể đó) và giá trị sẽ là các biến thể tên.

Mặc dù có ưu điểm là tốc độ nhanh và khả năng mở rộng tốt, nhưng kỹ thuật dựa trên từ điển cũng có nhược điểm là phụ thuộc nhiều vào chất lượng của từ điển và có thể không hiệu quả trong trường hợp các tên mới, viết tắt, hoặc các biến thể không

2.3.2 Kỹ thuật khai triển dạng bề mặt của đề cập thực thể

Trong nhiều trường hợp, một thực thể có thể được đề cập đến bằng nhiều cách khác nhau trong văn bản Ví dụ trong văn bản: "Barack Obama" có thể được gọi là

"Obama," "President Obama," "Barack," v.v.) Khai triển dạng bề mặt (Surface form expansion) của đề cập thực thể là quá trình mở rộng hoặc tạo thêm các biểu diễn khác nhau của một đề cập thực thể Từ đó, hệ thống có thể nhận diện được nhiều cách đề cập khác nhau đến cùng một thực thể.

Việc khai triển dạng bề mặt trên văn bản cục bộ (Surface Form Expansion from the

Local Document) cho đề cập thực thể được thực hiện bằng cách xem xét những thông tin có sẵn từ chính tài liệu hoặc văn bản mà thực thể đó được đề cập Thông tin từ văn bản cục bộ mang lại giúp hệ thống xác định chính xác các biểu diễn của thực thể dựa trên các cách biểu diễn khác trong văn bản cục bộ đó cũng như ngữ cảnh cụ thể của chúng Từ đó có thể cải thiện độ chính xác của hệ thống liên kết thực thể Điều này cũng giúp giảm thiểu sai lầm do tính đa nghĩa trong ngôn ngữ tự nhiên.

Nhiều hệ thống liên kết thực thể đã sử dụng các kỹ thuật này với mục đích làm đa dạng danh sách thực thể Các kỹ thuật mở rộng được Wei và cộng sự [2] khảo sát và chia thành hai loại chính:

• Kĩ thuật tự tìm kiếm ( Heuristic Based Methods ): Với một số đề cập thực thể được biểu diễn dưới dạng rút gọn, một số kỹ thuật tìm dạng đầy đủ của đề cập đó bằng cách tìm kiếm văn bản xung quanh theo một số mẫu (pattern) Mẫu phổ biến nhất được áp dụng là một từ viết tắt nằm trong ngoặc đơn liền kề với từ ở dạng đầy đủ (Ví dụ: HewlettPackard (HP), UIUC (University of Illinois at Urbana-Champaign)) Một cách tiếp cận khác, nhiều công trình khai triển dạng bề mặt cho đề cập thực thể [31, 32, 33, 34] bằng áp dụng các phương pháp dựa trên mô hình ngôn ngữ N-Gram (N-gram Language Models) trên toàn bộ văn bản Bên cạnh đó, sử dụng một bộ nhận dạng thực thể có tên (Named Entity Recognizer—NER) cũng là một cách tiếp cận phổ biến để khai triển dạng bề mặt của đề cập thực thể.

• Kĩ thuật học có giám sát ( Supervised Learning Methods ): Các kỹ thuật tự tìm kiếm trên sẽ gặp khó khăn và không giải quyết được một số trường hợp từ viết tắt phức tạp, hay dạng đầy đủ của từ không xuất hiện trong văn bản đầu vào.

Ví dụ “CCP” cho “Communist Party of China” hay “DOD” cho “United States Department of Defense” Để giải quyết vấn đề này, phương pháp sử dụng một kỹ thuật máy véc-tơ tựa (Support vector machine— SVM) do Zhang và cộng sự [35] công bố đã được triển khai Cơ sở của phương pháp là thuật toán học có giám sát, với dữ liệu huấn luyện được gán nhãn bán thủ công gồm 170 cặp dạng viết tắt và dạng đầy đủ của từ Cách tiếp cận này đã đạt độ chính xác 86,1% trên tập dữ liệu KBP-2010, cho thấy tính hiệu quả của cách tiếp cận này trong bài toán mở rộng từ viết tắt.

Việc sử dụng thông tin từ văn bản cục bộ có thể cải thiện độ chính xác của liên kết thực thể bằng cách xác định chính xác các biểu diễn của thực thể dựa trên ngữ cảnh cụ thể của chúng Điều này cũng giúp giảm thiểu sai lầm do sự mơ hồ hoặc đa nghĩa trong ngôn ngữ tự nhiên Tuy nhiên, việc mở rộng dạng bề mặt cho đề cập thực thể từ văn bản cục bộ còn tồn tại những thách thức như tính đa dạng và không nhất quán trong cách người dùng hoặc tác giả đề cập tới các thực thể Bên cạnh đó, việc duy trì sự cập nhật và chính xác của cơ sở tri thức để đối chiếu cũng có thể là vấn đề cần giải quyết.

2.3.3 Kỹ thuật dựa trên công cụ tìm kiếm

Phương pháp dựa trên công cụ tìm kiếm (Method Based on Search Engines) trong liên kết thực thể là một kỹ thuật sử dụng các công cụ tìm kiếm trực tuyến để cải thiện quá trình xác định và liên kết thực thể.

Các kỹ thuật xếp hạng thực thể ứng viên

Luận văn đã thảo luận các phương pháp phổ biến dùng để sinh ra danh sách các thực thể ứng viên trong phần trên Theo thống kê của Ji và cộng sự [37], trung bình số lượng thực thể ứng viên trên một đề cập thực thể trong những bộ dữ liệu đánh giá phổ biến như TAC-KBP2010 là 12.9, TAC-KBP2011 là 13.1, và CoNLL là 73 Bài toán tiếp theo cần được giải quyết là tính điểm tương quan và xếp hạng các thực thể ứng viên này Từ đó tìm ra ứng viên có liên quan nhất tới đề cập thực thể Dưới đây, luận văn sẽ trình bày về các đặc trưng và phân loại các kỹ thuật đang được sử dụng cho thành phần xếp hạng thực thể ứng viên.

Bước đầu tiên trong việc xây dựng hệ thống xếp hạng thực thể ứng viên là xác định và lựa chọn các đặc trưng Các đặc trưng phổ biến để đánh giá xếp hạng các thực thể ứng viên có thể được chia thành 2 nhóm:

• Đặc trưng phụ không thuộc bối cảnh: Các đặc trưng thuộc nhóm này chỉ dựa trên đề cập của thực thể và thực thể ứng viên trong hệ cơ sở tri thức mà không sử dụng tới bối cảnh xung quanh nơi mà đề cập thực thể xuất hiện.

• Đặc trưng phụ thuộc bối cảnh: Các đặc trưng thuộc nhóm này dựa trên bối cảnh nơi đề cập thực thể xuất hiện Bối cảnh ở đây không dừng lại ở đoạn văn bản xung quanh đề cập thực thể, mà có thể các thực thể khác cùng xuất hiện trong văn bản đó.

Những quan sát sau sẽ thường được sử dụng để ước lượng độ tương quan giữa đề cập thực thể và tên thực thể ứng viên:

• Đề cập thực thể có giống tuyệt đối với tên của thực thể ứng viên hay không?

• Tên của thực thể ứng viên có bắt đầu hay kết thúc bằng đề cập thực thể không?

• Đề cập thực thể có chứa tên của thực thể ứng viên không và ngược lại?

• Số lượng từ giống nhau giữa đề cập thực thể và tên của thực thể ứng viên.

• Tỉ lệ dãy con chung dài nhất.

Bên cạnh đó, khi sử dụng đặc trưng này, hệ thống có thể tận dụng nhiều độ đo để ước lượng độ tương quan như khoảng cách chỉnh sửa (Edit distance), Hệ số Dice (Dice coefficient score), khoảng cách Hamming (Hamming distance scores),

Mức độ phổ biến của thực thể ( Entity Popularity ): Một đặc trưng không phụ thuộc bối cảnh khác cũng thu hút được nhiều sự quan tâm là độ phổ biến của thực thể. Đặc trưng này chứa thông tin về xác suất xuất hiện của một thực thể ứng viên nào đó với đề cập thực thể Quan sát cho thấy, với mỗi thực thể ứng viênei∈Em (vớiEm là tập các thực thể có cùng một biểu diễn ngữ nghĩam) thì có độ phổ biến khác nhau Ví dụ, khi đề cập thực thể là "Phù Tang" thì thực thể ứng viên "Nhật Bản" thường sẽ là kết quả truy vấn hơn là thực thể "Phù Tang" trong thần thoại Trung Quốc Đặc trưng này có thể được ước lượng bằng một số dữ liệu như số lượt truy cập, tần suất cập nhật nội dung bài viết hay số lượng bình luận Hình 2.3a và 2.3b lần lượt thể hiện số lượng lượt truy cập bài viết Nhật Bản và Phù Tang trong tháng 5/2023.

(a) Lượng truy cập của thực thể Nhật Bản trong tháng 5/2023

(b) Lương truy cập của thực thể Phù Tang trong tháng 5/2023 Hình 2.3: Ước lượng mức độ phổ biến của thực thể

Trong thời gian gần đây, những hệ thống liên kết thực thể hiện đại nhất đã áp dụng quan sát này để xếp hạng thực thể ứng viên Ji và Grishman đã xây dựng thí nghiệm [38] và đưa ra kết luận rằng việc khai thác đặc trưng này có thể mang lại kết quả tương đối khả quan Họ đã xây dựng một hệ thống liên kết, trong đó thành phần xếp hạng thực thể ứng viên chỉ tính toán với độ phổ biến của thực thể thông qua thống kê số lượng truy cập vào bài viết trên Wikipedia Hệ thống đó đã đạt được 71% độ chính xác trên bộ dữ liệu TAC-KBP2010 Qua đó cho thấy, việc sử dụng đặc trưng độ phổ biến của thực thể tỏ ra đơn giản trong việc triển khai xếp hạng thực thể đồng thời mang lại kết quả khá tích cực.

Loại thực thể ( Entity Type ): Thông thường, các cơ sở tri thức sẽ cung cấp thông tin về loại của thực thể Đối với Wikipedia thì thông tin về loại của thực thể nằm trong mục "Thể loại" nằm cuối bài viết Hình 2.4 mô tả thể loại của bài viết Hà Nội 2 trênWikipedia.

Số lượng thể loại thực thể sẽ phụ thuộc vào thiết kế của từng cơ sở tri thức Ví dụ:

CiceroLite, DBpedia và WRATS đưa về ba dạng (người, địa điểm và tổ chức) trong khi Wikipedia cho người dùng tự định nghĩa thêm thể loại, thống kê cho tới tháng 3/2023 Wikipedia tiếng Việt đã hỗ trợ hơn 460000 loại thực thể.

Nghiên cứu của D Nemeskey [34] đã sử dụng hệ thống NER để nhận diện thể loại của đề cập thực thể trong văn bản cho trước Kết quả sau đó sẽ được so sánh với thể loại của thực thể ứng viên để lựa chọn thực thể phù hợp Đồng thời nghiên cứu còn chỉ ra, nếu chỉ sử dụng duy nhất đặc trưng này, độ chính xác sẽ thấp hơn ngưỡng trung bình Điều này xảy ra do nhiều yếu tố như độ chính xác của hệ thống NER cũng như tập dữ liệu huấn luyện chưa đủ lớn, Tuy vậy, đặc trưng này khá đơn giản trong việc thu thập và triển khai nên được khuyến khích sử dụng như một nguồn thông tin bổ sung cho việc xếp hạng thực thể ứng viên.

Các đặc trưng phụ thuộc vào ngữ cảnh

Do có cách tiếp cận trực quan cũng như dễ dàng khai thác, các đặc trưng không phụ thuộc bối cảnh thể hiện vai trò quan trọng đối với thành phần xếp hạng thực thể ứng viên Tuy vậy, việc chỉ dựa trên đề cập thực thể hay dữ liệu về thực thể trong hệ cơ sở tri thức nhìn chung đã bỏ qua một số thông tin hữu ích khác trong ngữ cảnh Do đó, việc sử dụng các đặc trưng trích xuất từ ngữ cảnh là cần thiết và dưới đây sẽ trình bày những đặc trưng phụ thuộc ngữ cảnh phổ biến.

Ngữ cảnh văn bản ( Textual Context ): để giải quyết vấn đề xếp hạng các thực thể ứng viên, một trong những cách tiếp cận trực quan nhất là ước lượng độ tương quan giữa ngữ cảnh xung quanh trong văn bản mô tả của đề cập thực thể và ngữ cảnh của thực thể ứng viên trong văn bản Tại đây, mức độ quan trọng của biểu diễn từ và ngữ cảnh văn bản được nhấn mạnh Nhiều kỹ thuật đã được nghiên cứu và áp dụng để biểu diễn ngữ cảnh văn bản, trong đó nổi bật:

• Mô hình túi từ (Bag of words): Với đề cập thực thể, mô hình túi từ sẽ thu thập và biểu diễn ngữ cảnh theo toàn bộ văn bản mô tả đã cho hoặc một cửa sổ có xung quanh vị trí xuất hiện đề cập thực thể với độ dài xác định trước Còn đối với thực thể ứng viên, ngữ cảnh thường được xét ở đây có thể là cả văn bản, đoạn văn đầu tiên trong văn bản, hoặc một cửa sổ xung quanh nơi xuất hiện đề cập thực thể, hayktừ quan trọng nhất đối với văn bản được thể hiện qua giá trị TF-IDF (Term

• Biểu diễn véc-tơ (Concept vector): Đối với văn bản mô tả đề cập thực thể hoặc văn bản biểu diễn thực thể trong cơ sở dữ liệu, hệ thống sẽ trích xuất một số thành phần như: cụm từ khóa (Keyphrases), văn bản neo (Anchor texts), tên của thực thể, thể loại, nội dung tóm tắt của bài viết, Sau đó tổng hợp và biểu diễn thành một véc-tơ đại diện cho nội dung ngữ nghĩa của văn bản Phương pháp này phổ biến do tỏ ra hiệu quả trong việc có thể hỗ trợ giải thích, cung cấp cái nhìn trực quan và đặc biệt là hỗ trợ một số phép toán (cộng, trừ, tính khoảng cách, ).

Có nhiều cách để véc-tơ hóa một đoạn văn bản, nổi bật trong thời gian gần đây là nhúng BERT (BERT embedding) Nhúng BERT là một tính năng trong mô hình đã được huấn luyện từ trước (Pre-trained model) BERT (Bidirectional Encoder

Các kỹ thuật dự đoán đề cập không thể liên kết

Phần trước luận văn đã trình bày các kỹ thuật chính được sử dụng để xếp hạng các thực thể ứng viên Về mặt tổng quát, Với một tập Em các thực thể ứng viên, thành phần xếp hạng ứng viên sẽ trả về thực thểetop có độ tương quan lớn nhất tới đề cập thực thể Tuy nhiên trong bài toán thực tế, một số trường hợp đề cập thực thể không liên quan tới bất kì thực thể nào trong cơ sở tri thức Điều này xảy ra do nhiều lý do: thực thể có thể quá mới, quá cụ thể, quá chung chung, hoặc không quan trọng đủ để được đưa vào cơ sở tri thức Công việc của thành phần dự đoán đề cập không thể liên kết là nhận biết được khi nào không thực hiện liên kết một cách chính xác Đối với những đề cập thực thể này, hệ thống liên kết thực thể sẽ trả về nhãnNIL.

Ví dụ: "Báo VietNamNet đã liên hệ với ôngNguyễn Văn Rộn, Hiệu trưởng Trường

THCS Nguyễn Văn Bứa, nhưng không được hồi đáp".

→Đề cập thực thểNguyễn Văn Rộnnày không tồn tại trong cơ sở tri thức Do đó, hệ thống cần trả về nhãnNIL.

Hay "BạnĐức Trần, kĩ sư phần cứng, đang làm việc cho Intel đưa ra dự đoán về xu thế ngành bán dẫn".

→Đề cập thực thể"Đức Trần"tuy có nhiều thực thể ứng viên được hệ thống đưa ra Nhưng không có thực thể nào trong hệ cơ sở tri thức là chính xác để liên kết Do vậy, hệ thống cần phải trả về nhãnNIL.

Tuy thành phần dự đoán đề cập không thể liên kết là thành phần không bắt buộc trong hệ thống Mục đích hệ thống liên kết thực thể cần phải nhận diện đề xuất này có

• Dựa trên số lượng thực thể ứng viên: Nếu danh sách thực thể ứng viên được trả về từ thành phần sinh thực thể ứng viên ứng viên bằng rỗng, điều ngày đồng nghĩa với việc đề cập thực thể đầu vào không thể liên kết.

• Dựa trên ngưỡng tương quan: Một số hệ thống liên kết thực thể đã giải quyết vấn đề này bằng cách đưa ra một ngưỡngτ Với thực thểetop có độ tương quan stop cao nhất, hệ thống nhận diện đề xuất không có thực thể thỏa mãn khi stop < τ Ngược lại, hệ thống sẽ trả về thực thểetop Ngưỡngτcó thể được xác định thủ cộng, hoặc được học tự động từ dữ liệu huấn luyện.

• Áp dụng phương pháp phân loại nhị phân: Một số hệ thống liên kết thực thể trong thời gian gần đây đã sử dụng các phương pháp học máy để dự đoán đề cập có thể liên kết hay không Các hệ thống này coi vấn đề này như một bài toán phân loại nhị phân Với một bộ dữ liệu huấn luyện bao gồm các cặp với m là đề cập vàelà thực thể, hệ thống sẽ huấn luyện một mô hình dự đoán thực thể NIL Khi đó, với mỗi một truy vấn, hệ thống sẽ trả lại một nhãnmtương ứng Nếum dương (positive), hệ thống sẽ trả về e top là thực thể liên kết Ngược lại, hệ thống sẽ trả về nhãnNIL.

Trong chương vừa rồi, luận văn đã trình bày về kiến trúc tổng quát của một hệ thống liên kết thực thể Bên cạnh đó, luận văn còn đưa ra và nhận xét các kĩ thuật phổ biến được áp dụng cho từng thành phần trong hệ thống Những kĩ thuật được trình bày ở trên sẽ được áp dụng để xây dựng một hệ thống liên kết thực thể dành cho tiếng Việt trong chương tiếp theo.

cho tiếng Việt

Xây dựng bộ dữ liệu

Hiện nay chưa có một bộ dữ liệu tiếng Việt cho bài toán liên kết thực thể được công bố Điều này một phần có lẽ do quy mô và thành tựu nghiên cứu bài toán này trên tiếng Việt còn hạn chế Thực trạng này đã và đang tạo ra nhiều khó khăn trong việc huấn luyện cũng như đánh giá hiệu quả cho các hệ thống liên kết thực thể Nhận thấy việc xây dựng một bộ dữ liệu là cần thiết, luận văn tự xây dựng và đưa ra một bộ dữ liệu phục vụ cho bài toán liên kết thực thể. thông tin chung cho 9 bộ dữ liệu từ ba nhóm nghiên cứu: UIUC (2 bộ dữ liệu), AIDA (2 bộ dữ liệu) và TAC KBP (5 bộ dữ liệu).

Nhóm Bộ dữ liệu Số lượng đề cập Thể loại thực thể Số đề cập NIL

UIUC ACE 244 Các thực thể trong Wikipedia 0

MSNBC 654 Các thực thể trong Wikipedia 0

AIDA AIDA-dev 5917 Người, Tổ chức, Địa điểm, Khác 1126

AIDA-test 5616 Người, Tổ chức, Địa điểm, Khác 1131

TAC09 3904 Người, Tổ chức, Thực thể địa chính trị 2229 TAC10 2250 Người, Tổ chức, Thực thể địa chính trị 1230 TAC10T 1500 Người, Tổ chức, Thực thể địa chính trị 426

TAC11 2250 Người, Tổ chức, Thực thể địa chính trị 1126 TAC12 2226 Người, Tổ chức, Thực thể địa chính trị 1049

Bảng 3.1: Các bộ dữ liệu phổ biến trong liên kết thực thể

Thông qua việc tìm hiểu và khảo sát các bộ dữ liệu trên, luận văn nhận thấy một số đặc điểm như sau:

• Một bộ dữ liệu được xây dựng cho nhiều bài toán đồng thời: Để tối ưu hóa chi phí và hiệu quả của bộ dữ liệu, thông thường, một bộ dữ liệu khi xây dựng bằng phương pháp thủ công sẽ hướng tới nhiều bài toán đồng thời Ví dụ các bộ dữ liệu thuộc nhóm AIDA sẽ hỗ trợ đồng thời bài toán NER, còn các bộ dữ liệu thuộc nhóm TAC-KBP (TAC09-TAC12) hỗ trợ cho bài toán liên kết thực thể và điền thông tin vào vị trí cụ thể (Slot filling).

• Định dạng: Trong khi các bộ dữ liệu trong nhóm UIUC được biểu diễn bằng định dạng XML (eXtensible Markup Language), AIDA và TAC KBP được đánh giá là dễ tiếp cận hơn khi các bộ dữ liệu thuộc nhóm này hỗ trợ định dạng JSON (JavaScript Object Notation)) JSON được sử dụng phổ biến hơn vì mang lại nhiều ưu điểm như được hỗ trợ mặc định bởi nhiều ngôn ngữ lập trình, cấu trúc biểu diễn mang tính trực quan đối với người dùng, hỗ trợ việc mở rộng sau này.

• Hỗ trợ đề cập không thể liên kết: Hầu hết các bộ dữ liệu đều hỗ trợ đề cập không thể liên kết (NIL) ngoại trừ nhóm UIUC Xuất phát từ bài toán thực tế, một số trường hợp đề cập thực thể không liên quan tới bất cứ thực thể nào trong cơ sở tri thức Các bộ dữ liệu thuộc nhóm AIDA và TAC KBP đều hỗ trợ đánh giá khả năng dự đoán đề cập không thể liên kết cho hệ thống liên kết thực thể.

• Kiểu thực thể: Trong khi các bộ dữ liệu thuộc nhóm UIUC sao chép lại toàn bộ phần thể loại bài viết của Wikipedia, thì các bộ dữ liệu khác sẽ phân loại các thực thể thành một số nhóm nhất định như người, địa điểm, tổ chức, .

Qua khảo sát và rút ra được những nhận xét được trình bày ở trên, luận văn lựa chọn xây dựng một bộ dữ liệu hỗ trợ tiếng Việt với những đặc trưng như sau:

• Bộ dữ liệu sẽ tập trung vào bài toán liên kết thực thể, do giới hạn về thời gian cũng như tài nguyên.

• Bộ dữ liệu có chứa các đề cập không thể liên kết Điều này xuất phát từ bài toán thực tế, luôn tồn tại một số lượng lớn các thực thể không tồn tại trong cơ sở tri thức.

• Dựa theo cách phân loại của các nhóm dữ liệu trên bảng 3.1, luận văn nhận thấy rằng: nếu áp dụng cách phân loại như nhóm UIUC, bộ dữ liệu sẽ trở nên không rõ ràng do sự đa dạng của các loại thực thể trên Wikipedia Còn với cách tiếp cận của nhóm TAC KBP, số lượng các thực thể thuộc nhóm địa chính trị (Geo-political entity) sẽ hạn chế, gây khó khăn cho các tình nguyện viên xây dựng bộ dữ liệu. Đối với bộ dữ liệu AIDA, cách phân loại tỏ ra dễ dàng hơn khi xây dựng Do đó, luận văn quyết định học tập theo nhóm dữ liệu này Các đề cập thực thể trong bộ dữ liệu sẽ được phân loại vào 4 nhóm: người (Person), địa điểm (Location), tổ chức (Organization), và khác (Misc).

• Bộ dữ liệu sẽ được xây dựng theo định dạng JSON Điều này sẽ làm cho việc mở rộng bộ dữ liệu, thêm trường dữ liệu trở nên dễ dàng. triệu bài báo bao gồm nhiều thể loại: công nghệ, đời sống, giải trí, Mỗi tình nguyện viên khi tham gia sẽ được yêu cầu lựa chọn ngẫu nhiên một đoạn văn bản có độ dài từ 3-6 câu trong một bài báo bất kỳ Tiếp theo, họ lựa chọn một đề cập thực thể xuất hiện trong đoạn văn bản trên Đề cập thực thể này là danh từ Trong đó, các danh từ riêng sẽ được ưu tiên lựa chọn Sau đó tình nguyện viên tìm kiếm bài viết tương ứng với đề cập thực thể đó trên trang Wikipedia tiếng Việt Nếu Wikipedia chứa bài viết về đề cập thực thể, tình nguyện viên cần sao chép đường dẫn tới bài viết đó vào mẫu dữ liệu Ngược lại, nếu Wikipedia không có bài viết phù hợp, tình nguyện viên sẽ điền NIL Thể loại thực thể sẽ do tình nguyện viên tự xếp loại Cuối cùng, tình nguyện viên bổ sung thông tin về thể loại bài báo đang được chọn để trích xuất mẫu.

Hình 3.1 là ví dụ cho một mẫu trong bộ dữ liệu.

Hình 3.1: Một ví dụ trong bộ dữ liệu

Hiện tại, bộ dữ liệu đã được tải lên công khai 2 với ba phiên bản: not_nil (bao gồm 1460 mẫu chắc chắn có thực thể liên kết), only_nil (bao gồm 160 mẫu chứa đề cập không thể liên kết) và full (tổng hợp của 2 phiên bản trên).

Trong quá trình xây dựng bộ dữ liệu, luận văn nhận thấy vấn đề một thực thể được đại diện bởi nhiều đường dẫn (Uniform Resource Locator— URL) khác nhau Ví dụ

2 https://github.com/anhbh310/Thesis-EntityLinking/tree/master/datasets những đường dẫn trong hình 3.2 đều trỏ tới thực thểThủ tướng Việt Nam. https://vi.wikipedia.org/wiki/Thủ_tướng_Chính_phủ_nước_Cộng_hòa_xã_hội_chủ_nghĩa_Việt_Nam https://vi.wikipedia.org/w/index.php?title=Thủ_tướng_Việt_Nam https://vi.wikipedia.org/?curid688499 https://vi.wikipedia.org/?curid594943

Hình 3.2: Đa dạng đường dẫn cùng trỏ tới một thực thể

Nhận thấy thông tin page_id là duy nhất với mỗi thực thể trong cơ sở tri thức. Đường dẫn có định dạnghttps://vi.wikipedia.org/?curid=sẽ được chọn làm đường dẫn chuẩn để đại diện cho thực thể liên kết Với những liên kết từ trang định hướng, hệ thống sẽ tìm tới bài viết ban đầu và trích xuấtpage_id để xây dựng đường dẫn chuẩn.

Bên cạnh đó, trong một bài viết trên Wikipedia, thông tin của thực thể thường được tổng hợp trong đoạn văn bản đầu tiên Từ quan sát trên, hệ thống tập trung bóc tách, xử lý và tập trung lưu trữ đoạn văn bản này.

Ngoài ra, thông tin về biến thể tên (tên biệt danh, tên khác, ) tuy có đượcWikipedia đề cập tới, nhưng lại không được tổ chức rõ ràng hay có hệ thống Điều này đặt ra yêu cầu cho hệ thống cần tự động trích xuất và tổng hợp, từ đó hỗ trợ cho tác vụ đề xuất thực thể ứng viên.

Xây dựng thành phần đề xuất ứng viên

Tại phần này, luận văn sẽ trình bày chi tiết hơn về cách xây dựng hệ thống liên kết thực thể Cụ thể hơn, luận văn sẽ mô tả các phương pháp cùng kĩ thuật được triển khai để xây dựng từng thành phần trong hệ thống, bao gồm xây dựng cơ sở lưu

3.2.1 Xây dựng cơ sở lưu trữ Wikipedia dưới dạng SQL

Hệ thống được xây dựng trong luận văn lựa chọn Wikipedia làm cơ sở tri thức, bởi vì Wikipedia được coi là Bách khoa toàn thư mở đồ sộ nhất hiện nay Cụ thể hơn, kho dữ liệu của Wikipedia chứa số lượng thực thể cho tiếng Việt đồ sộ và được cập nhật liên tục Hệ cơ sở tri thức này không chỉ dừng lai ở lưu trữ thông tin về thực thể còn cung cấp một số siêu dữ liệu (Metadata) khác như: lịch sử chỉnh sửa, số lượt truy cập,

Với bản chất là dự án mã nguồn mở được phát triển và phục vụ cho cộng đồng, dữ liệu trong Wikipedia có thể tải về từ Mediawiki (tổ chức phát triển và chịu trách nhiệm cho Wikipedia và các dự án liên quan) Wikipedia được hỗ trợ lưu trữ và cung cấp toàn bộ các bài viết trên toàn bộ 321 ngôn ngữ bởi Mediawiki. Đối với tiếng Việt, các bản lưu trữ sẽ được cập nhật định kỳ 2 lần vào ngày 1 và ngày 20 hàng tháng Các bản lưu trữ bao gồm đủ các thông tin từ bài viết, người chỉnh sửa, quyền truy cập, lịch sử chỉnh sửa, v.v Nhưng đối với yêu cầu giải quyết bài toán liên kết thực thể, hệ thống liên kết thực thể mà luận văn xây dựng trước mắt chỉ tập trung thu thập dữ liệu về tên bài báo, nội dung, trang chuyển hướng, và số lượt truy cập.

Trong các bản lưu trữ được tải về, dữ liệu sẽ được tổ chức dưới dạng XML Nhiệm vụ được đặt ra ở đây là xử lý và tổ chức lưu trữ lượng dữ liệu khổng lồ này trong cơ sở tri thức cục bộ cho những công việc xử lý tiếp theo.

Trước hết, ta cần chuyển đổi dữ liệu từ định dạng XML sang định dạng SQL và công cụ Mwdumper 3 được sử dụng để tiền hành bước xử lý này Mwdumper được nhóm kỹ sư của Mediawiki thiết kế và công bố mã nguồn mở Mặc dù đã không còn được cập nhật từ 2021 nhưng trong quá trình khảo sát, luận văn đã lựa chọn công cụ này do mang lại hiệu quả tốt đồng thời hỗ trợ tùy chỉnh tùy theo nhu cầu người dùng.

Bên cạnh đó, nhận thấy mã nguồn của Mwdumper đã cũ và có nguy cơ không được lưu trữ, tài liệu không đầy đủ gây ra khó khăn cho việc cài đặt, luận văn đã đóng gói

3 https://phabricator.wikimedia.org/diffusion/MWDU/ hệ thống này dưới dạng Docker 4 để thuận tiện cho việc cập nhật cơ sở dữ liệu cũng như triển khai và mở rộng sau này.

3.2.2 Phát triển thành phần đề xuất ứng viên

1 Dựa trên từ điển tên: Mã nguồn bài viết trên Wikipedia được thể hiện dưới dạng wikitext Wikitext là một ngôn ngữ đánh dấu (Markup language), trong đó bao gồm các từ khóa và cú pháp để định dạng 1 bài viết.

Ngoài ra, Wikipedia có tính chất phát triển là một dự án cộng đồng nên số lượng người tham gia đóng góp và số bài viết tương đối đồ sộ gây khó khăn cho đội ngũ kiểm duyệt Chính vì lẽ đó, phần nhiều các bài viết không tuân thủ chặt chẽ các quy ước được đặt ra Vì vậy, đối với thuộc tính tên thực thể nói riêng, công việc hệ thống lại và trích xuất đầy đủ các thông tin tên liên quan tới thực thể cần rất nhiều công sức và thời gian.

Thông qua quá trình khảo sát và xây dựng bộ dữ liệu, luận văn nhận thấy nhiều bài viết sử dụng các thuộc tính lạ (tên cũ, tên khác, ) hoặc một số bài viết dịch từ các ngôn ngữ khác sử dụng lại thuộc tính từ bài viết từ ngôn ngữ gốc (birth name, holiday name, non-profit name, native name, )

Dù có rất nhiều thuộc tính, nhưng những thuộc tính được sử dụng phổ biến bao gồm: tên, tên thường gọi (common name), tên chính thức (official name), tên hiệu, tên cũ, tên khác Hệ thống liên kết thực thể do luận văn xây dựng sẽ tập trung trích xuất và lưu trữ thông tin từ những thuộc tính trên nhằm phục vụ cho mục đích mở rộng danh sách thực thể ứng viên.

2 Dựa trên hệ thống tìm kiếm của Wikimedia: Wikimedia cung cấp nhiều Giao diện lập trình ứng dụng (Application Programming Interface — API) nhằm hỗ trợ truy cập và tướng tác với các nội dung và dữ liệu từ các dự án của Wikimedia, bao gồm Wikipedia Trong số đó, giao diện tìm kiếm nội dung 5 hỗ trợ người dùng mở rộng khả năng tương tác, tìm kiếm bài viết phù hợp Bên cạnh việc mang lại hiệu quả khả quan, thời gian phản hồi nhanh và ổn định cũng là ưu điểm API này.

API này có hiệu quả tìm kiếm tương đối khả quan, thời gian phản hồi nhanh và ổn định Mặc dù tồn tại giới hạn về số lượng yêu cầu theo từng địa chỉ IP trong một khung thời gian (Time frame) là 100 truy vấn trên giây, nhưng với mục đích nghiên cứu thì giao diện lập trình này hiện tại vẫn đáp ứng yêu cầu Hệ thống đã tận dụng API nêu trên để làm đa dạng danh sách thực thể ứng viên.

Ngoài ra, với mục đích tăng tốc việc so sánh tương quan sau này, mỗi thực thể trong cơ sở tri thức sẽ được xử lý nhúng (Embedding) đoạn văn bản đầu tiên Véc- tơ biểu diễn được lưu trữ trong Chromadb 6 Chromadb là một cơ sở dữ liệu nhúng(Embedding database) được tối ưu để lưu trữ véc-tơ cũng, truy vấn và thực hiện các phép tính trên các véc-tơ đó.

Xây dựng thành phần xếp hạng thực thể ứng viên

Kết quả trả về từ thành phần đề xuất ứng viên nêu trên là một danh sách các thực thể ứng viên Danh sách này sẽ là dữ liệu đầu vào cho thành phần xếp hạng thực thể ứng viên Tại đây, hệ thống tập trung vào 2 đặc trưng: biểu diễn véc-tơ và độ phổ biến của các thực thể ứng viên đó.

1 Biểu diễn véc-tơ: Luận văn lựa chọn một mô hình ngôn ngữ hỗ trợ tiếng Việt để biểu diễn véc-tơ của đề cập thực thể trong văn bản đầu vào Véc-tơ này còn mang thông tin của bối cảnh xung quanh đề cập thực thể đó Một vài mô hình ngôn ngữ có thể kể tới như: PhoBERT, ViBERT, BERT multilingual và XLM-RoBERTa. Đối với PhoBERT, mô hình này đặc biệt yêu cầu dữ liệu đầu vào cần được tiền xử lý tách từ Yêu cầu này xuất phát do khác với tiếng Anh, dấu cách được sử dụng như ranh giới từ, thì đối với tiếng Việt, dấu cách được dùng để ngăn cách

5 https://www.mediawiki.org/wiki/API:Search

6 https://www.trychroma.com/ các âm giữa các âm tiết cấu thành từ Do vậy, qua việc tiền xử lý tách từ (Word segmentation), mô hình ngôn ngữ PhoBERT tỏ ra hiệu quả hơn trong việc biểu diễn từ ghép và cụm từ.

PhoBERT khuyến nghị xử lý tách từ với công cụ RDRsegmenter [50] Công cụ này là một thành phần trong bộ công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt VnCoreNLP [51] Hình 3.3 minh họa dữ liệu đầu vào và đầu ra cho một xử lý tách từ với công cục RDRsegmenter Tiếp theo đó, PhoBERT sẽ nhận diện mỗi từ trong kết quả xử lý tách từ là một đơn vị (token) cho các bước xử lý sau này. Ông Nguyễn Khắc Chúc đang làm việc tại Đại học Quốc gia Hà Nội Bà Lan, vợ ông Chúc, cũng làm việc tại đây. Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội Bà Lan, vợ ông Chúc, cũng làm_việc tại đây.

Hình 3.3: Ví dụ về xử lý tách từ với RDsegmenter Đối với PhoBERT, để tìm thực thể ứng viên có độ tương quan lớn nhất thông qua đặc trưng biểu diễn véc-tơ nhúng, hệ thống sẽ thực hiện các bước sau:

• Thực hiện nhúng từ thông qua PhoBERT.

• Trích xuất biểu diễn véc-tơ của thực thể ứng viên và đề cập thực thể.

• Tìm độ tương quan giữa đề cập thực thể và thực thể ứng viên thông qua diễn thành trung bình cộng của các véc-tơ từ thành phần Các bước trích xuất và tính toán độ tương quan sẽ được thực hiện tương tự như với PhoBERT Hình 3.4 minh họa cho cách hệ thống xác định véc-tơ nhúng của một cụm từ khi tính toán trên các mô hình ngôn ngữ không yêu cầu xử lý tách từ.

Hình 3.4: Ví dụ về xử lý từ ghép cho các mô hình không yêu cầu tách từ Để lựa chọn mô hình ngôn ngữ cho thành phần xếp hạng liên kết thực thể, hệ thống lựa chọn ngẫu nhiên 1000 mẫu dữ liệu chắc chắn có thực thể liên kết (không chứa đề cập thực thể NIL) Từ đó chạy thử nghiệm lần lượt từng mô hình ngôn ngữ hỗ trợ tiếng Việt để đánh giá khả năng xếp hạng Bảng 3.2 cung cấp kết quả thử nghiệm về khả năng nhận diện độ tương quan giữa đề cập thực thể và các thực thể ứng viên cho các mô hình ngôn ngữ hỗ trợ tiếng Việt.

Mô hình ngôn ngữ Số lượng tham số Độ chính xác bert-base-multilingual-cased 177M 53.63 bert-base-multilingual-uncased 167M 71.64 phobert-base 134M 82.47 vibert-base-cased 115M 64.86 xlm-roberta-large 560M 51.37

Bảng 3.2: Kết quả thử nghiệm với các mô hình ngôn ngữ hỗ trợ tiếng Việt

Từ kết quả khảo sát, luận văn nhận thấy việc nhúng từ với hai mô hình ngôn ngữ PhoBERT và Multilingual BERT uncased mang lại kết quả tương đối khả quan.

Vì vậy, hai mô hình ngôn ngữ này được lựa chọn để tham gia trong quá trình xếp hạng thực thể ứng viên.

2 Dựa trên độ phổ biến của thực thể: Độ phổ biến của thực thể sẽ được ước lượng bằng số lượng truy cập Thông tin về số lượng truy cập sẽ được tổng hợp thông qua API 7 được cung cấp từ Wikimedia.

Như vậy, hệ thống có ba kết quả xếp hạng tương ứng với ba phương pháp xếp hạng các thực thể ứng viên bao gồm: xếp hạng dựa trên mô hình ngôn ngữ PhoBERT, xếp hạng dựa trên mô hình ngôn ngữ Multilingual BERT uncased và xếp hạng dựa trên độ phổ biến của thực thể.

Tổng hợp kết quả: Với mỗi đặc trưng, mỗi đánh giá trong thành phần xếp hạng ứng viên sẽ trả về một danh sách các thực thể ứng viên được sắp xếp theo khả năng liên quan giảm dần Để có thể trả về thực thể có độ liên quan lớn nhất, hệ thống cần tổng hợp thông tin và đưa ra kết luận. quát, hệ thống có m phương pháp xếp hạng khác nhau, mỗi phương pháp sẽ đưa ra một danh sách sắp xếp theo thứ tự giảm dần về độ liên quan tới đề cập thực thể cho nthực thể ứng viên Ngoài ra, hệ thống còn có một ma trận trọng sốλ m∗n Trong đó, mỗi phần tử λi j là trọng số của phương pháp xếp hạngi cho thực thể có xếp hạng j.

Thuật toán 1 mô tả cách hệ thống triển khai giải thuật biểu quyết mềm.

Algorithm 1: Giải thuật biểu quyết mềm

2 returnλ value of entityein the result of rankingr;

9 ret←Argmax(P)Hiện nay, ma trận λ trong hệ thống được lựa chọn dựa trên thực nghiệm Mặc dù,có thể chưa phải là giá trị tối ưu nhất, nhưng luận văn cung cấp cách tiếp cận tổng quát để hệ thống có thể tiếp tục cải thiện độ chính xác trong tương lai.

Xây dựng thành phần dự đoán đề cập không thể liên kết

Đây là một thành phần không bắt buộc trong một hệ thống liên kết thực thể Tuy vậy, với hiện trạng số văn bản cũng như số lượng thực thể xuất hiện mới ngày càng nhiều dẫn tới cơ sở dữ liệu không cập nhật kịp thời, đầy đủ, cho nên việc xây dựng thành phần dự đoán đề cập không thể liên kết là cần thiết cho luận văn Mặt khác,thành phần này còn giúp hệ thống hạn chế trả về những thực thể liên kết không chính xác Dưới đây là những kĩ thuật được luận văn áp dụng vào xây dựng hệ thống liên kết thực thể.

• Trong trường hợp danh sách thực thể ứng viên từ thành phần đề xuất ứng viên là rỗng, hệ thống sẽ ngay lập tức trả về thực thể liên kết cho đề cập thực thể đầu vào làNIL.

• Đối với các trường hợp còn lại, thành phần này sẽ nhận thực thể có độ tương quan lớn nhất là đầu vào Trong quá trình thử nghiệm và triển khai, nhận thấy điểm tương quan khi sử dụng PhoBERT để nhúng từ và văn bản có độ nhận diện tốt(khoảng cách điểm tương quan tương đối rõ ràng) Hệ thống quyết định lựa chọn điểm tương quan từ PhoBERT để thực hiện đặt ngưỡng dự đoán đề cập không thể liên kết, giá trị ngưỡng này được lựa chọn thông qua thực nghiệm.

Đánh giá kết quả

Trong phần này, luận văn sẽ đưa ra một số nhận xét về bộ dữ liệu Bên cạnh đó, luận văn sẽ làm rõ một số vấn đề (1) Kết quả của hệ thống được xây dựng so với các hệ thống liên kết thực thể hỗ trợ tiếng Việt đang có (2) Khảo sát các thời gian các thành phần tính toán.

Bộ dữ liệu được xây dựng từ những bài báo thuộc các thể loại: văn hóa, kinh tế,thế giới, khoa học, giáo dục, giải trí, công nghệ Các bài báo này được lựa chọn ngẫu nhiên trong kho văn bản tiếng Việt Biểu đồ 3.5 thống kê các mẫu được thu thập từ bài báo thuộc thể loại nào.

Th gi i Kinh t Khoa h c Giáo d c Gi i trí Công ngh

Hình 3.5: Phân loại thực thể theo thể loại nguồn bài viết

Hình 3.6 cho thấy tương quan số lượng mẫu NIL trong bộ dữ liệu Bộ dữ liệu có 160 mẫu đề cập không thể liên kết tương ứng với 9.88%.

Hình 3.6: Số lượng đề cập NIL trong bộ dữ liệu

Hình 3.7 cho thấy tương quan giữa các thể loại thực thể trong bộ dữ liệu Trong đó,số lượng thực thể thuộc thể loại khác (Misc) có số lượng nhiều nhất, tiếp theo là con người (Person) và địa điểm (Location), cuối cùng là tổ chức (Organization) Luận văn ghi nhận rằng có một lượng lớn thực thể thuộc loại "khác" trong bộ dữ liệu (chiếm36.54% bộ dữ liệu với 592 thực thể) Việc phân loại chi tiết hơn cho nhóm dữ liệu này sẽ làm tăng độ chính xác cũng như cải thiện độ hiểu biết của bộ dữ liệu Tuy nhiên do giới hạn về thời gian, việc phân loại chi tiết thêm cho nhóm thực thể "khác" sẽ không được thực hiện trong phạm vi của luận văn này.

Hình 3.7: Phân bố loại thực thể trong bộ dữ liệu

Hệ thống liên kết thực thể được xây dựng trong luận văn, có hai phiên bản cần đánh giá.

• Phiên bản không hỗ trợ dự đoán đề cập không thể liên kết: Phiên bản này sẽ được đánh giá trên phần dữ liệu tồn tại thực thể liên kết (không chứa đề cập thực thểNIL) Phần dữ liệu này bao gồm 1460 đề cập thực thể.

• Phiên bản hỗ trợ dự đoán đề cập không thể liên kết: Phiên bản này sẽ được đánh giá trên toàn bộ tập dữ liệu (giống như phiên bản trên và bổ sung thêm 160 đề cập thực thểNIL).

Hệ thống liên kết thực thể Dự đoán đề cập không thể liên kết Độ chính xác

Hệ thống của Lê Thị Hạnh[29] 48.5%

Hệ thống của Khánh Duy[30] 69.2%

Bảng 3.3 trình bày kết quả của các hệ thống liên kết thực thể dành cho tiếng Việt.

Các hệ thống liên kết hỗ trợ tiếng Việt hiện tại không thể dự đoán được thực thể không thể liên kết Để thực hiện phép so sánh tốt, hệ thống trích xuất ra 1460 đề cập thực thể có thể liên kết và thực hiện đánh giá với phiên bản không hỗ trợ dự đoán đề cập không thể liên kết Hệ thống được đưa ra bởi luận văn đạt tới 91.85% độ chính xác Mặc dù bộ dữ liệu đánh giá giữa các bộ dữ liệu không giống nhau do các tác giả không công bố, chia sẻ, nhưng kết quả đạt được từ hệ thống là tương đối khả quan.

Bên cạnh đó, với phiên bản hệ thống liên kết thực thể có dự đoán đề cập không thể liên kết, bộ dữ liệu đánh giá được bổ sung thêm 160 thực thểNIL, hệ thống vẫn đạt được độ chính xác tương đối tốt là 84.01%.

Tính toán thời gian xử lý theo từng thành phần được thực hiện trên máy tính chạy Ubuntu 20.04 với 4 core, 8 GB RAM.

Hình 3.8: Thời gian trung bình cho một xử lý liên kết thực thể Để đưa ra được kết quả trên hình 3.8, hệ thống đã thực hiện trên 50 yêu cầu liên kết thực thể khác nhau ngẫu nhiên trong bộ dữ liệu và tính ra thời gian xử lý trung bình trên mỗi thành phần Với trung bình thời gian để xử lý một yêu cầu liên kết là1.4s trên một máy tính có cấu hình tương đối khiêm tốn Hệ thống có nhiều tiềm năng triển khai mở rộng trong thực tế Ta có thể nhận thấy, hầu hết thời gian xử lý đều nằm ở thành phần xếp hạng ứng viên (chiếm60.76%), tiếp theo là đề xuất ứng viên (chiếm39.15%) Đối với thành phần dự đoán đề cập không thể liên kết, thời gian xử lý không đáng kể.

Ngày đăng: 02/09/2024, 22:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery, “Learning to construct knowledge bases from the world wide web,”Artificial Intelligence, vol. 118, no. 1, pp. 69–113, 2000. [Online]. Available:https://www.sciencedirect.com/science/article/pii/S0004370200000047 Sách, tạp chí
Tiêu đề: Learning to construct knowledge bases from the world wide web,”"Artificial Intelligence
[2] W. Shen, J. Wang, and J. Han, “Entity linking with a knowledge base: Issues, techniques, and solutions,” IEEE Transactions on Knowledge and Data Engi- neering, vol. 27, no. 2, pp. 443–460, 2015 Sách, tạp chí
Tiêu đề: Entity linking with a knowledge base: Issues,techniques, and solutions,” "IEEE Transactions on Knowledge and Data Engi-neering
[3] T. Pellissier Tanon, G. Weikum, and F. Suchanek, “Yago 4: A reason-able knowl- edge base,” in The Semantic Web, A. Harth, S. Kirrane, A.-C. Ngonga Ngomo, H. Paulheim, A. Rula, A. L. Gentile, P. Haase, and M. Cochez, Eds. Cham:Springer International Publishing, 2020, pp. 583–596 Sách, tạp chí
Tiêu đề: Yago 4: A reason-able knowl-edge base,” in"The Semantic Web
[4] J. Lehmann, R. Isele, M. Jakob, A. Jentzsch, D. Kontokostas, P. Mendes, S. Hell- mann, M. Morsey, P. Van Kleef, S. Auer, and C. Bizer, “Dbpedia - a large-scale, multilingual knowledge base extracted from wikipedia,” Semantic Web Journal, vol. 6, 01 2014 Sách, tạp chí
Tiêu đề: Dbpedia - a large-scale,multilingual knowledge base extracted from wikipedia,”"Semantic Web Journal
[5] K. Bollacker, C. Evans, P. Paritosh, T. Sturge, and J. Taylor, “Freebase:A collaboratively created graph database for structuring human knowledge,” Sách, tạp chí
Tiêu đề: Freebase:A collaboratively created graph database for structuring human knowledge
[7] R. Navigli and S. P. Ponzetto, “BabelNet: Building a very large multilingual semantic network,” in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics, Jul. 2010, pp. 216–225. [Online]. Available:https://aclanthology.org/P10-1023 Sách, tạp chí
Tiêu đề: BabelNet: Building a very large multilingualsemantic network,” in "Proceedings of the 48th Annual Meeting of theAssociation for Computational Linguistics
[8] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, E. Hruschka, and T. Mitchell,“Toward an architecture for never-ending language learning,” in Proceedings of the AAAI conference on artificial intelligence, vol. 24, no. 1, 2010, pp. 1306–1313 Sách, tạp chí
Tiêu đề: Toward an architecture for never-ending language learning,” in"Proceedings ofthe AAAI conference on artificial intelligence
[9] O. Etzioni, M. Cafarella, D. Downey, S. Kok, A.-M. Popescu, T. Shaked, S. Soderland, D. S. Weld, and A. Yates, “Web-scale information extraction in knowitall: (preliminary results),” in Proceedings of the 13th International Conference on World Wide Web, ser. WWW ’04. New York, NY, USA:Association for Computing Machinery, 2004, p. 100–110. [Online]. Available:https://doi.org/10.1145/988672.988687 Sách, tạp chí
Tiêu đề: Web-scale information extractionin knowitall: (preliminary results),” in "Proceedings of the 13th InternationalConference on World Wide Web
[10] D. Vrandeˇci´c and M. Kr¨otzsch, “Wikidata: A free collaborative knowledgebase,”Commun. ACM, vol. 57, no. 10, p. 78–85, sep 2014. [Online]. Available:https://doi.org/10.1145/2629489 Sách, tạp chí
Tiêu đề: Wikidata: A free collaborative knowledgebase,”"Commun. ACM
[11] V. Varma, V. Bharat, S. Kovelamudi, P. Bysani, S. Gsk, K. N, K. Reddy, K. Ku- mar, and N. Maganti, “Iiit hyderabad at tac 2009,” 01 2009 Sách, tạp chí
Tiêu đề: Iiit hyderabad at tac 2009
[12] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv preprint arXiv:1301.3781, 2013 Sách, tạp chí
Tiêu đề: Efficient estimation of wordrepresentations in vector space,”"arXiv preprint arXiv:1301.3781
[14] S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R. Harshman, “Indexing by latent semantic analysis.” Journal of the American Society for Information Science 41, pp. 391–407, 1990 Sách, tạp chí
Tiêu đề: Indexingby latent semantic analysis.” "Journal of the American Society for InformationScience 41
[15] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, “Enriching word vectors with subword information,” Transactions of the Association for Computational Linguistics, vol. 5, pp. 135–146, 2017 Sách, tạp chí
Tiêu đề: Enriching word vectorswith subword information,”"Transactions of the Association for ComputationalLinguistics
[16] Y. Si, J. Wang, H. Xu, and K. Roberts, “Enhancing clinical concept extraction with contextual embeddings,” Journal of the American Medical Informatics Association, vol. 26, no. 11, pp. 1297–1304, 07 2019. [Online]. Available:https://doi.org/10.1093/jamia/ocz096 Sách, tạp chí
Tiêu đề: Enhancing clinical concept extractionwith contextual embeddings,” "Journal of the American Medical InformaticsAssociation
[17] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power, “Semi-supervised sequence tagging with bidirectional language models,” in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), R. Barzilay and M.-Y. Kan, Eds. Vancouver, Canada:Association for Computational Linguistics, Jul. 2017, pp. 1756–1765. [Online].Available: https://aclanthology.org/P17-1161 Sách, tạp chí
Tiêu đề: Semi-supervisedsequence tagging with bidirectional language models,” in "Proceedings of the55th Annual Meeting of the Association for Computational Linguistics (Volume1: Long Papers)
[18] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), J. Burstein, C. Doran, and T. Solorio, Eds.Minneapolis, Minnesota: Association for Computational Linguistics, Jun. 2019, pp. 4171–4186. [Online]. Available: https://aclanthology.org/N19-1423 Sách, tạp chí
Tiêu đề: BERT: Pre-training ofdeep bidirectional transformers for language understanding,” in "Proceedingsof the 2019 Conference of the North American Chapter of the Associationfor Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers)
[19] M. V. Koroteev, “BERT: A review of applications in natural language processing and understanding,” CoRR, vol. abs/2103.11943, 2021. [Online]. Available:https://arxiv.org/abs/2103.11943 Sách, tạp chí
Tiêu đề: BERT: A review of applications in natural language processingand understanding,” "CoRR
[20] A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, F. Guzmán, E. Grave, M. Ott, L. Zettlemoyer, and V. Stoyanov, “Unsupervised cross- lingual representation learning at scale,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, D. Jurafsky, J. Chai, N. Schluter, and J. Tetreault, Eds. Online: Association for Computational Linguistics, Jul. 2020, pp. 8440–8451. [Online]. Available:https://aclanthology.org/2020.acl-main.747 Sách, tạp chí
Tiêu đề: Unsupervised cross-lingual representation learning at scale,” in "Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics
[21] D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” in Findings of the Association for Computational Linguistics:EMNLP 2020, 2020, pp. 1037–1042 Sách, tạp chí
Tiêu đề: PhoBERT: Pre-trained language modelsfor Vietnamese,” in"Findings of the Association for Computational Linguistics:"EMNLP 2020
[22] T. V. Bui, T. O. Tran, and P. Le-Hong, “Improving sequence tagging for Vietnamese text using transformer-based neural models,” in Proceedings of the 34th Pacific Asia Conference on Language, Information and Computation, M. L. Nguyen, M. C. Luong, and S. Song, Eds. Hanoi, Vietnam: Association for Computational Linguistics, Oct. 2020, pp. 13–20. [Online]. Available:https://aclanthology.org/2020.paclic-1.2 Sách, tạp chí
Tiêu đề: Improving sequence tagging forVietnamese text using transformer-based neural models,” in "Proceedings ofthe 34th Pacific Asia Conference on Language, Information and Computation

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN