(LUẬN văn THẠC sĩ) phát hiện kế thừa văn bản đa ngôn ngữ 04

Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ

Khái quát về kế thừa văn bản

Trong cuộc sống hàng ngày, chúng ta sử dụng ngôn ngữ tự nhiên để diễn đạt vấn đề theo nhiều cách khác nhau, dẫn đến sự biến đổi trong biểu diễn ngữ nghĩa Hiện tượng này có thể được coi là sự nhập nhằng trong ngôn ngữ tự nhiên Các ứng dụng trong xử lý ngôn ngữ tự nhiên, như hệ thống hỏi đáp, trích xuất thông tin, tóm tắt văn bản và đánh giá dịch máy, cần một mô hình để nhận diện sự biến đổi này, nhằm xác định xem một ý nghĩa cụ thể có thể được suy luận từ các biến thể văn bản khác nhau hay không.

Vào năm 2004, bài toán phát hiện kế thừa văn bản (RTE) đã được giới thiệu như một phương pháp tổng quát để giải quyết các nhu cầu liên quan đến suy luận ngữ nghĩa trong lĩnh vực xử lý ngôn ngữ tự nhiên Kể từ đó, hội nghị RTE đã được tổ chức hàng năm từ RTE-1 đến RTE-8, nhằm đánh giá và so sánh các phương pháp nghiên cứu khác nhau Ba hội nghị đầu tiên, bao gồm RTE-1 vào năm 2005 và RTE-2 vào năm 2006, đã đóng góp quan trọng vào sự phát triển của lĩnh vực này.

The RTE (Recognizing Textual Entailment) conferences, starting with RTE-1 in 2006 and RTE-2 in 2007, were held as part of the PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning) initiative Subsequent RTE conferences, from RTE-4 in 2008 to RTE-8 in 2012, took place under the Text Analysis Conference (TAC) organized by the National Institute of Standards and Technology (NIST) The TAC aims to promote research in natural language processing and related applications by providing large test datasets, evaluation procedures, and a platform for research teams to share their findings.

1.1.1 Khái niệm kế thừa văn bản

Kế thừa văn bản hiện nay được định nghĩa theo nhiều cách khác nhau Theo Glickman và Dagan, kế thừa văn bản là mối quan hệ giữa một văn bản nhất quán T và một thể hiện ngôn ngữ của nó, ký hiệu là H, với H là hệ quả của T Mối quan hệ này được thể hiện qua việc ý nghĩa của H, khi đặt trong ngữ cảnh của T, có thể được suy ra từ ý nghĩa của T.

Văn bản T được coi là kế thừa giả thuyết H khi sự thật về H có thể được suy luận từ T, nghĩa là T chứa đựng ý nghĩa của H Điều này cho thấy rằng T kế thừa H khi một số biểu diễn của H có thể trùng khớp với các biểu diễn của T thông qua các bước chuyển đổi bảo toàn ngữ nghĩa, ở mức độ chi tiết và trừu tượng nhất định.

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản

Bảng 1: Một số ví dụ về kế thừa văn bản

STT Văn bản Giả thuyết Kế thừa

Sau khi chiến tranh kết thúc, tàu Bountiful đã cập bến vịnh San Francisco vào ngày 21 tháng 8 năm 1945 và được chỉ định làm tàu bệnh viện tại Yokosuka.

San Francisco vào ngày 1 tháng 11 năm 1945

Bountiful đã tới San Francisco vào tháng 8 năm 1945

2 Tập đoàn Boeing đặt tại Chicago đã hủy bỏ ba đơn hàng vào năm 2006 mà Air Canada đã đặt

Trụ sở của tập đoàn Boeing nằm ở Canada

Under the headline "Greed instead of Quality," the German newspaper Die Tageszeitung critiques the acquisition of Berliner Verlag by two investment funds from the UK and the US, highlighting the negative implications of such a takeover.

Hai quỹ đầu tư của Anh và

Mỹ đã thâu tóm Berliner Verlag

4 Scott Island đã đượcthuyền trưởng

William Colbeck người chỉ huy của

Morning, con tàu cứu viện cho cuộc viễn chinh của thuyền trưởng Robert

F Scott, tìm ra vào tháng 12 năm

Thuyền trưởng Scott đã đặt chân tới đảo Scott Island vào tháng 12 năm 1902

5 Chiếc xe hơi đã va vào hòm thư thuộc về James Clark, 68 tuổi, một người quen của gia đình James

Clark là một người họ hàng của Jones

1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản

Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T và giả thuyết H Bài toán được phát biểu như sau:

 Đầu vào: Tập các cặp văn bản – giả thuyết thuộc cùng một chủ đề

Đầu ra của quá trình này là các cặp văn bản và giả thuyết được gán nhãn "Yes" hoặc "No" Nhãn "Yes" được sử dụng khi văn bản T kế thừa giả thuyết H, trong khi nhãn "No" được áp dụng khi văn bản T không kế thừa giả thuyết H.

Kế thừa văn bản đa ngôn ngữ

1.2.1 Động lực và mục tiêu

Sự bùng nổ thông tin trên web bằng nhiều ngôn ngữ đã mở ra cơ hội cho người dùng tiếp cận và chia sẻ thông tin bằng ngôn ngữ của họ Sự phát triển mạnh mẽ của nội dung đa ngôn ngữ phản ánh nhu cầu cao về các ứng dụng xử lý ngôn ngữ tự nhiên Theo thống kê, top mười ngôn ngữ phổ biến nhất trên Internet năm nay cho thấy sự đa dạng trong việc sử dụng ngôn ngữ trực tuyến.

Năm 2013, tỷ lệ thông tin được người dùng viết bằng các ngôn ngữ Anh, Trung Quốc, Tây Ban Nha và Bồ Đào Nha trên web lần lượt là 800.6, 649.4, 222.4 và 121.8 (theo đơn vị nghìn người sử dụng) Điều này cho thấy sự cần thiết của công nghệ đa ngôn ngữ để hỗ trợ người dùng trong việc tiếp cận thông tin và giao tiếp hiệu quả trên Internet.

Phát hiện kế thừa văn bản đơn ngôn ngữ đã mang lại nhiều lợi ích cho các ứng dụng xử lý ngôn ngữ tự nhiên Tuy nhiên, các ứng dụng đa ngôn ngữ gặp khó khăn trong việc đạt được mục tiêu do thiếu thành phần phát hiện kế thừa văn bản đa ngôn ngữ Do đó, bài toán phát hiện kế thừa văn bản đa ngôn ngữ đã được hình thành để giải quyết vấn đề này.

Luận văn này sẽ nghiên cứu vấn đề phát hiện kế thừa văn bản đa ngôn ngữ, tập trung vào các phương pháp tiếp cận để giải quyết bài toán này Đặc biệt, mô hình sẽ được đề xuất nhằm phát hiện kế thừa văn bản giữa các cặp câu tiếng Việt và tiếng Anh.

1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ

Kế thừa văn bản đa ngôn ngữ (Cross-lingual Textual Entailment - CLTE) được Mehdad đề xuất như một sự mở rộng của kế thừa văn bản Nó được định nghĩa là mối quan hệ kế thừa giữa hai văn bản viết bằng các ngôn ngữ khác nhau Trong bài toán này, với cặp văn bản T1 và T2, nhiệm vụ là xác định xem nghĩa của văn bản T2 có thể được suy luận từ nghĩa của văn bản T1 hay không, và ngược lại.

Theo Mehdad [14], có bốn trường hợp xảy ra trong bài toán phát hiện kế thừa văn bản đa ngôn ngữvới cặp văn bản T1-T2:

 Kế thừa hai chiều - bidirectional (T1→T2 và T2→T1): Hai văn bản kế thừa nhau, có nghĩa là hai văn bản tương đương nhau về mặt nội dung

2 http://www.internetworldstats.com/stats7.htm

 Kế thừa theo chiều xuôi - forward (T1→T2 và T2!→T1): T1 kế thừa T2 nhưng T2 không kế thừa T1

 Kế thừa theo chiều ngược - backward (T1!→ T2 và T2→T1): T2 kế thừa T1 nhưng T1 không kế thừa T2

 Không kế thừa - no entailment (T1!→ T2 và T2!→T1): Không có mối quan hệ kế thừa giữa T1 và T2

Dưới đây là một số ví dụ minh họa về khái niệm kế thừa văn bản đa ngôn ngữ, trong đó văn bản đầu tiên được viết bằng tiếng Việt và văn bản thứ hai bằng tiếng Anh.

Bảng 2: Một số ví dụ về kế thừa văn bảnđa ngôn ngữ

STT Văn bản 1 Văn bản 2 Kế thừa

1 Bountiful đã tới San Francisco vào tháng 8 năm 1945

Bountiful arrived after war's end, sailing into San Francisco Bay 21 August

1945 Bountiful was then assigned as hospital ship at Yokosuka, Japan, departing San Francisco 1 November

2 Tập đoàn Boeing tại Chicago đã hủy bỏ ba đơn đặt hàng vào năm

Boeing's headquarters is in Canada

3 Dưới tiêu đề "Greed instead of quality", Die Tageszeitung của Đức nói chẳng có điều gì tốt đẹp việc thâu tóm nhà xuất bản

Berliner Verlag của hai quỹ đầu tư của Anh và Mỹ.

British and US-based investment funds acquire Berliner Verlag

4 Scott Island đã được thuyền trưởng William Colbeck, người chỉ huy của Morning, con tàu

Scott Island was discovered and landed upon in December

Bidirectional cứu viện cho cuộc viễn chinh của thuyền trưởng Robert F

Scott, tìm ra vào tháng 12 năm

Colbeck commander of the Morning, relief ship for Capt

5 Chiếc xe hơi đã va vào hòm thư của James Clark, 68 tuổi, một người quen của gia đình James

Clark is a relative of Jones' No entailment

Theo các ví dụ trên:

Cặp văn bản thứ nhất có mối quan hệ kế thừa theo chiều "lùi" vì văn bản thứ nhất được suy luận từ văn bản thứ hai, trong khi văn bản thứ hai không thể suy luận từ văn bản thứ nhất.

Cặp văn bản thứ hai và thứ năm có mối quan hệ "no entailment", nghĩa là không thể suy luận từ văn bản này sang văn bản kia và ngược lại.

Cặp văn bản thứ ba có mối quan hệ kế thừa "forward", trong đó văn bản thứ hai được suy luận từ văn bản thứ nhất, nhưng ngược lại, văn bản thứ nhất không thể suy luận từ văn bản thứ hai.

 Cặp văn bản thứ tư có mối quan hệ kế thừa là “bidirectional” vì văn bản thứ nhất được suy luận từ văn bản thứ hai và ngược lại.

Các ứng dụng của bài toán phát hiện kế thừa văn bản đa ngôn ngữ

Kế thừa văn bản là một công cụ quan trọng giúp cải thiện khả năng hiểu ngôn ngữ tự nhiên Công nghệ này được ứng dụng rộng rãi trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên, bao gồm hệ thống hỏi đáp, trích xuất thông tin, tự động tóm tắt văn bản, đánh giá chất lượng dịch máy, so sánh tài liệu, đọc hiểu và đồng bộ hóa nội dung tự động.

Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản giúp xác định các câu trả lời có liên quan và đề xuất những câu trả lời mong muốn từ câu hỏi của người dùng Chẳng hạn, khi hỏi “Ai là người vẽ bức tranh Mona Lisa?”, đoạn văn “Bức tranh nàng Mona Lisa của Leonardo Da Vinci đã tạo cảm hứng cho rất nhiều nhà phân tích” cung cấp thông tin hữu ích về tác giả của bức tranh.

1503, trong Thời Phục hưng Italia và theo Vasari.” kế thừa câu trả lời mong muốn là

“Leonardo Da Vinci là người vẽ bức tranh Mona Lisa.”

Trong đánh giá dịch máy, một bản dịch tự động được coi là chính xác khi nghĩa của nó tương đương với bản dịch chuẩn vàng Do đó, cả hai bản dịch cần phải kế thừa lẫn nhau Việc kế thừa văn bản là cần thiết để đánh giá sự tương đương về mặt ngữ nghĩa của các bản dịch.

Trong trích chọn thông tin (Information Extraction), các thông tin được trích chọn nên kế thừa văn bản

Trong tóm tắt văn bản, kế thừa văn bản giúp xác định và rút gọn thông tin cần thiết, từ đó so sánh với các văn bản khác để tránh dư thừa Việc áp dụng quan hệ kế thừa cho phép loại bỏ thông tin không cần thiết, giữ lại những điểm quan trọng và rút ngắn độ dài văn bản Đặc biệt, nó còn hỗ trợ giải quyết bài toán đồng bộ hóa nội dung giữa hai văn bản viết bằng ngôn ngữ khác nhau thông qua phát hiện kế thừa văn bản đa ngôn ngữ.

Tóm tắt chương một

Trong chương một, luận văn khám phá các khái niệm liên quan đến phát hiện kế thừa văn bản, bao gồm định nghĩa và khái niệm phát hiện kế thừa văn bản đa ngôn ngữ Bên cạnh đó, chương này cũng trình bày bài toán phát hiện kế thừa văn bản và các ứng dụng của nó trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa văn bản đa ngôn ngữ.

Các hướng tiếp cận bài toán RTE và CLTE

Hướng tiếp cận cho bài toán RTE

Từ năm 2005, hội nghị khoa học quốc tế về phát hiện kế thừa văn bản RTE đã thu hút nhiều nghiên cứu quan trọng Qua tám kỳ hội nghị, các tác giả đã áp dụng nhiều phương pháp, chủ yếu là học máy, xử lý ngôn ngữ tự nhiên ở các mức độ khác nhau, và suy luận logic Hầu hết các phương pháp này dựa vào cơ sở tri thức bên ngoài như WordNet và FrameNet, giúp cải thiện khả năng xử lý ngôn ngữ Mặc dù mỗi phương pháp có những ưu điểm riêng, nhưng thường chỉ giải quyết một khía cạnh của bài toán, khó có thể tìm ra một giải pháp toàn diện cho vấn đề kế thừa văn bản.

Rui Wang [12] nhận định rằng việc áp dụng học máy trong phát hiện kế thừa văn bản mang lại nhiều lợi ích, bao gồm việc loại bỏ yêu cầu xác định ngưỡng kế thừa, khả năng xử lý số lượng lớn đặc trưng, và cho phép tích hợp thông tin từ nhiều mức độ như cú pháp, ngữ nghĩa, hoặc sự kết hợp giữa chúng.

2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy

Theo Rui Wang, để áp dụng phương pháp học máy, cần thực hiện hai bước chính Đầu tiên, trích xuất đặc trưng từ cặp văn bản và giả thuyết đầu vào Tiếp theo, sử dụng các bộ phân lớp như cây quyết định, máy vector hỗ trợ, Entropy cực đại và Nạve Bayes với các đặc trưng đã được trích xuất Kết quả phân lớp không chỉ phụ thuộc vào bộ phân lớp và đặc trưng mà còn vào dữ liệu huấn luyện, có thể chia thành hai loại: học dựa trên các đặc trưng intra-pair và cross-pair Phát hiện kế thừa văn bản là bài toán kiểm tra mối quan hệ kế thừa giữa hai đoạn văn bản, dựa trên các đặc trưng liên quan giữa chúng.

FrameNet không chỉ bao gồm các đặc trưng intra-pair mà còn có các đặc trưng cross-pair, được xác định dựa trên mối quan hệ giữa các cặp T-H Việc hiểu rõ các đặc trưng này là rất quan trọng trong việc phân tích cấu trúc lập luận và các vai trò ngữ nghĩa trong ngôn ngữ.

2.1.1.1 Các đặc trưng Intra-pair (In-pair features)

Các đặc trưng Intra-pair được trích xuất từ việc so sánh cặp câu T và H, với sự trùng lặp từ vựng là một chỉ số quan trọng Khi coi các câu như một nhóm các token, các đặc trưng có thể dựa vào cấu trúc cú pháp, đại diện ngữ nghĩa hoặc các hình thức logic Nếu xem xét các câu như túi từ (bag of words), các đặc trưng bao gồm số lượng từ trùng lặp giữa T và H, cũng như tỷ lệ của số từ trùng lặp so với tổng số từ trong T hoặc H.

J Bos và K Market [5] kết hợp phương pháp dựa trên trùng lặp từ và phương pháp dựa trên suy luận logic Một số tác giả sử dụng các đặc trưng phong phú ở các cấp độ xử lý đa dạng khác nhau.Sự kết hợp giữa các từ trong T và H được phát hiện và giúp cho việc phân lớp trong giai đoạn tiếp theo

A Newman và cộng sự [1] đề xuất ra hai hệ thống, hệ thống đầu tiên sử dụng một số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting Evaluation: một gói phần mềm với một tập các độ đo được sử dụng cho việc đánh giá tóm tắt tự động và phần mềm dịch máy trong xử lý ngôn ngữ tự nhiên), độ đo Cosin, và độ đo tương đồng cho danh từ dựa trên WordNet Với các đặc trưng dựa trên động từ, các tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ) Trên thực tế, hầu hết các nhóm sử dụng các đặc trưng từ vựng đều áp dụng các độ tương đồng giữa các từ dựa vào từ điển WordNet hoặc các nguồn tài nguyên từ vựng khác

Theo Rui Wang, R Adam đã sử dụng khoảng cách chỉnh sửa từ vựng như một đặc trưng quan trọng trong nghiên cứu Tác giả thực hiện việc đếm số token không được ánh xạ sau khi so sánh cặp và mở rộng độ dài của H bằng cách sử dụng toán tử chèn từ phép chỉnh sửa H được kế thừa nếu có một chuỗi các phép chuyển đổi có thể biến T thành H với tổng chi phí dưới ngưỡng cho phép Điểm khác biệt là các tác giả tính toán khoảng cách chỉnh sửa dựa trên cây phụ thuộc, bao gồm các phép toán như chèn, xóa và thay thế Chi phí cho việc xóa và thay thế là 0 nếu hai từ tương đồng theo từ điển WordNet, và khác 0 trong các trường hợp khác.

Rui Wang [12] chỉ ra rằng F Schilder và B T McInnes đã sử dụng khoảng cách chỉnh sửa cây như một đặc trưng và áp dụng các độ đo tương tự cây xấp xỉ khác Trong bài toán RTE, văn bản T thường có độ dài lớn hơn so với giả thuyết H.

T thường chứa thông tin không liên quan đến việc phát hiện mối quan hệ kế thừa, dẫn đến việc phép xóa có chi phí bằng 0.

Từ trái nghĩa đóng vai trò quan trọng trong việc phát hiện quan hệ kế thừa trong văn bản, giúp xác định các cặp từ trái nghĩa giữa T và H E Newman và cộng sự đã áp dụng đặc trưng này từ Verb-Ocean, một tài nguyên từ vựng cung cấp các mối quan hệ ngữ nghĩa giữa các động từ.

Tên thực thể (Named-Entity: NE) là một đặc trưng quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên Nghiên cứu cho thấy rằng việc sử dụng đặc trưng NE giúp cải thiện đáng kể hiệu quả so với các hệ thống trước đây Các số hoặc biểu thức số trong T và H được so sánh trực tiếp hoặc sau khi điều chỉnh giá trị.

Một số đặc trưng được trích xuất từ cấu trúc cú pháp, chức năng ngữ nghĩa và hình thức logic Theo Rui Wang và A Hickl, việc tiền xử lý văn bản bao gồm phân tích từ vựng, phân tích cú pháp, giải quyết vấn đề đồng tham chiếu và phân tích ngữ nghĩa, dẫn đến việc trích xuất các đặc trưng như đặc trưng phụ thuộc, đặc trưng diễn giải và đặc trưng ngữ nghĩa Thêm vào đó, thành phần cơ bản (Basic Element: BE) được sử dụng như một không gian đặc trưng, với BE là bộ dữ liệu đại diện cho các đoạn cú pháp quan trọng.

2.1.1.2 Các đặc trưng Cross-Pair

Trong hội nghị RTE-2, Rui Wang chỉ ra rằng chỉ có nhóm tác giả Zanzotto và cộng sự thành công trong việc trích xuất các đặc trưng cross-pair Họ không tính toán độ tương đồng giữa T và H mà thay vào đó, đánh giá độ tương đồng giữa các cặp T-H khác nhau dựa trên thông tin cú pháp và từ vựng Cụ thể, nhóm tác giả sử dụng các hàm đánh giá sự tương đồng giữa từ hoặc các biểu thức phức tạp hơn để xác định các vị trí (anchor), từ đó kết nối toàn bộ T và H Cuối cùng, họ áp dụng một hàm nhân dựa trên đặc trưng cross-pair để tính toán độ tương đồng, xấp xỉ tổng độ tương đồng giữa hai câu T và hai câu H thành độ tương đồng giữa hai cặp.

2.1.1.3 Các phương pháp học máy

Sau khi trích xuất và lựa chọn đặc trưng, bước tiếp theo là chọn phương pháp học (bộ phân lớp) Các phương pháp học máy đa dạng được sử dụng bao gồm SVM, cực đại hóa Entropy và cây quyết định Trong số đó, cây quyết định (DT) và SVM là hai phương pháp phổ biến nhất trong việc phát hiện kế thừa văn bản.

Hướng tiếp cận cho bài toán CLTE

Theo Mehdadvà cộng sự [13], có hai hướng tiếp cận chính để giải quyết bài toán phát hiện kế thừa văn bản đa ngôn ngữ:

Hướng tiếp cận cơ bản trong việc phát hiện kế thừa văn bản đa ngôn ngữ (CLTE) là chuyển đổi bài toán này thành bài toán phát hiện kế thừa văn bản đơn ngôn ngữ (RTE) bằng cách dịch văn bản T2 sang ngôn ngữ của văn bản T1 hoặc ngược lại.

 Hướng tiếp cận nâng cao: Nhúng các kỹ thuật xử lý đa ngôn ngữvào trong quá trình phát hiện kế thừa văn bản đa ngôn ngữ

Sau đây, luận văn xin trình bày chi tiết từng hướng tiếp cận

2.2.1 Hướng tiếp cận cơ bản Ý tưởng chính của hướng tiếp cận này là thêm một thành phần dịch máy MT vào hệ thống phát hiện kế thừa văn bản đã có sẵn trước đó Ví dụ, văn bản T2 sẽ được dịch từ tiếng Anh sang tiếngViệt và sau đó sử dụng hệ thống phát hiện kế thừa văn bản để xác định mối quan hệ kế thừa giữa văn bản T1 và văn bản đã được dịch sang tiếng Việt của văn bản T2 Hướng tiếp cận tuân theo quy tắc chia để trị này mang lại một số ưu điểm như sau:

Việc phân tách hệ thống phát hiện kế thừa văn bản đa ngôn ngữ thành hai thành phần độc lập, bao gồm thành phần xử lý đa ngôn ngữ (MT) và thành phần phát hiện kế thừa văn bản (TE), sẽ tạo điều kiện thuận lợi hơn cho quá trình phát triển, gỡ lỗi và bảo trì hệ thống.

 Dễ dàng mở rộng với các ngôn ngữ khác bằng cách sửa đổi thành phần dịch máy

MT, thành phần TE vẫn được giữ nguyên

Hướng tiếp cận này có nhược điểm là phụ thuộc vào các thành phần dịch máy MT có sẵn và chất lượng bản dịch Nếu bản dịch không đạt yêu cầu, thành phần phát hiện kế thừa TE có thể dẫn đến kết quả không chính xác.

Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngôn ngữdựa theo hướng tiếp cận cơ bản của Mehdad [13]:

Hình 2: Hệ thống CLTE theo hướng tiếp cận cơ bản

Fandong Meng và cộng sự đã đề xuất một hệ thống phát hiện mối quan hệ kế thừa văn bản đa ngôn ngữ, trong đó T1 và T2 cần xác định mối quan hệ kế thừa, với T2 viết bằng tiếng Anh và T1 bằng ngôn ngữ khác Nhóm nghiên cứu dịch T1 sang tiếng Anh và sử dụng bộ công cụ mã nguồn mở EDITS để phát hiện mối quan hệ kế thừa giữa hai văn bản Các thực nghiệm được thực hiện trên bốn cặp ngôn ngữ: Pháp-Anh, Tây Ban Nha-Anh, Italia-Anh, và Đức-Anh, với độ chính xác trung bình đạt 0.5.

Mô hình đề xuất của Fandong Meng và cộng sự [2] được thể hiện như hình vẽ dưới đây:

Hình 3: Mô hình đề xuất của Fandong Meng cộng sự [2]

Jiang ZHAO và cộng sự đã tiếp cận bài toán phát hiện kế thừa văn bản đa ngôn ngữ CLTE như một vấn đề phân lớp đa lớp, sử dụng nhiều loại đặc trưng kết hợp với bộ phân lớp SVM đa lớp Quy trình của nhóm tác giả được chia thành ba bước: đầu tiên, họ sử dụng thành phần dịch máy để thu hẹp khoảng cách ngôn ngữ giữa văn bản T và giả thuyết H Tiếp theo, họ thực hiện tiền xử lý để tối đa hóa sự tương đồng giữa hai đoạn văn bản, từ đó cải thiện độ chính xác trong việc tính toán sự tương đồng Ngoài các đặc trưng về độ tương đồng, nhóm còn đề xuất các đặc trưng mới liên quan đến độ tương đồng ngữ nghĩa và sự khác biệt về câu Cuối cùng, tất cả các đặc trưng này được kết hợp và sử dụng làm dữ liệu đầu vào cho bộ phân lớp đa lớp SVM.

Nhóm tác giả sử dụng các đặc trưng sau:

Các đặc trưng cơ bản của văn bản bao gồm các độ đo chiều dài như |A|, |B|, |A−B|, |B−A|, |A∪B|, |A∩B|, |A|/|B| và |B|/|A|, trong đó A và B đại diện cho hai văn bản, và chiều dài văn bản được tính bằng tổng số từ không trùng lặp Đối với các cặp văn bản thuộc các ngôn ngữ khác nhau, nhóm tác giả đã sử dụng dịch máy để chuyển đổi chúng về cùng một ngôn ngữ trước khi thực hiện các phép tính về đặc trưng cơ bản này.

The characteristics of text similarity encompass various metrics, including Jaccard coefficient, Dice coefficient, Overlap coefficient, Weighted overlap coefficient, Cosine similarity, Manhattan distance, Euclidean distance, Edit distance, and Jaro-Winkler distance.

Nhóm tác giả đã giới thiệu một mô hình ẩn nhằm mô hình hóa các đại diện ngữ nghĩa của từ trong câu Họ sử dụng thừa số ma trận trọng số văn bản để xây dựng mô hình ngữ nghĩa cho câu.

Nhóm tác giả đã chỉ ra rằng nhiều mối quan hệ kế thừa giữa hai câu chỉ được xác định dựa trên một phần nhỏ của câu, dẫn đến việc phán quyết không chính xác Mặc dù hai câu không kế thừa nhau, nhưng sự tương đồng cao giữa chúng, được đo bằng các chỉ số tương đồng, vẫn khiến chúng bị coi là có mối quan hệ kế thừa Để khắc phục vấn đề này, nhóm tác giả đã xây dựng các đặc trưng khác biệt về câu nhằm phát hiện sự khác biệt giữa hai câu Nếu hai câu có độ đo tương đồng cao nhưng độ đo khác biệt thấp, thì khả năng chúng có mối quan hệ kế thừa sẽ cao.

Các đặc trưng về quan hệ ngữ pháp giúp xác định mối quan hệ giữa hai câu Nhóm tác giả thực hiện việc thay thế từ trong câu bằng nhãn từ loại (part of speech tags) và áp dụng các độ đo tương đồng ngữ nghĩa cho các câu đã được chuyển đổi.

Các đặc trưng bias được sử dụng để so sánh sự khác biệt giữa hai câu trong các khía cạnh đặc biệt như tính phân cực và các thực thể được đặt tên.

Jiang ZHAO và cộng sự đã thực hiện một nghiên cứu dựa trên tập dữ liệu từ hội nghị SemEval 2013, bao gồm 1500 cặp câu văn bản, với 1000 cặp dành cho đào tạo và 500 cặp cho kiểm tra, thuộc bốn cặp ngôn ngữ: Đức – Anh, Pháp – Anh, Tây Ban Nha – Anh, và Ý – Anh Kết quả cho thấy độ chính xác trung bình của nhóm tác giả đạt 0.43.

2.2.2 Hướng tiếp cận nâng cao Ý tưởng của hướng tiếp cận này là tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật toán phát hiện kế thừa văn bản TE Điều này giúp phát hiện kế thừa văn bản đa ngôn ngữmà không cần dịch văn bản với độ phức tạp thấp Do đó, hướng tiếp cận này không bị phụ thuộc vào các thành phần dịch máy và nó có thể kiểm soát được toàn bộ hành vi của hệ thống Khi xử lý với cụm từ dựa trên dịch máy thống kê, có một hướng tiếp cận là trích chọn thông tin từ bảng cụm từ để làm phong phú thêm các quy tắc suy luận và quy tắc kế thừa Các quy tắc này có thể được sử dụng trong hệ thống phát hiện kế thừa văn bản dựa trên khoảng cách

Mối quan hệ kế thừa giữa các thuật ngữ trong các ngôn ngữ khác nhau thể hiện rõ qua ví dụ như cụm từ “ordinateur portable” trong tiếng Pháp và “laptop” trong tiếng Anh, hay cụm từ “ti vi” trong tiếng Việt Những thuật ngữ này không chỉ phản ánh sự phát triển ngôn ngữ mà còn cho thấy sự tương tác văn hóa giữa các quốc gia.

Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngôn ngữdựa theo hướng tiếp cận nâng cao:

Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao

Thu thập kho dữ liệu song ngữ cho bài toán CLTE

Tiếp cận của luận văn với phát hiện kế thừa văn bản đa ngôn ngữ

Luận văn đã chỉ ra rằng có hai hướng tiếp cận chính trong việc phát hiện kế thừa văn bản đa ngôn ngữ: hướng tiếp cận cơ bản và hướng tiếp cận nâng cao Các nhóm nghiên cứu khoa học chủ yếu phát triển bài toán này dựa trên hai hướng tiếp cận này.

Hướng tiếp cận cơ bản trong phát hiện kế thừa văn bản đa ngôn ngữ có ưu điểm là tách biệt các thành phần dịch máy (MT) và phát hiện kế thừa (TE), giúp dễ dàng phát triển, gỡ lỗi và bảo trì hệ thống, đồng thời mở rộng với các ngôn ngữ khác Tuy nhiên, nhược điểm lớn là phụ thuộc vào chất lượng bản dịch của MT, dẫn đến khả năng chính xác thấp trong TE, với kết quả trung bình chỉ đạt 0.50 của Fandong Meng và 0.43 của Jiang ZHAO Để khắc phục, hướng tiếp cận nâng cao tích hợp chặt chẽ MT với các thuật toán TE, cho phép phát hiện kế thừa văn bản đa ngôn ngữ mà không cần dịch, giảm thiểu độ phức tạp và không phụ thuộc vào thành phần dịch máy, từ đó kiểm soát toàn bộ hành vi của hệ thống.

Mặc dù việc sử dụng nguồn tài nguyên từ vựng song ngữ là hữu ích, nhưng hạn chế về độ phong phú của chúng cùng với sự khác biệt trong cấu trúc cú pháp giữa các ngôn ngữ đã dẫn đến kết quả chưa cao Cụ thể, Marco Turchi và cộng sự đã đạt được độ chính xác trung bình chỉ 0.43 trong các thí nghiệm của họ.

Hiện nay, tiếng Việt chưa được sử dụng phổ biến trên thế giới, dẫn đến ngữ liệu song ngữ giữa tiếng Việt và các ngôn ngữ khác còn hạn chế về kích thước và chất lượng Sự khác biệt về cấu trúc cú pháp giữa tiếng Việt và tiếng Anh cũng tạo ra thách thức trong việc phát hiện kết thừa văn bản đa ngôn ngữ Luận văn này đề xuất áp dụng hướng tiếp cận cơ bản của Mehdadvà cộng sự để cải thiện kết quả trong việc xử lý văn bản tiếng Việt, đặc biệt khi các thực nghiệm trước đó cho thấy hướng tiếp cận nâng cao có độ chính xác thấp hơn Do đó, mô hình đề xuất trong chương tiếp theo sẽ dựa trên hướng tiếp cận cơ bản này.

Fandong Meng và các cộng sự đã phát triển một mô hình phát hiện kế thừa văn bản đa ngôn ngữ, đạt độ chính xác vượt trội so với các nghiên cứu trước đây.

Luận văn này sẽ phát triển một mô hình giải quyết bài toán bằng cách áp dụng mô hình của Fandong Meng và cộng sự Tuy nhiên, thành phần phát hiện kế thừa TE trong mô hình hiện tại chưa mang lại hiệu quả cao Do đó, nghiên cứu sẽ cải thiện thành phần TE bằng cách sử dụng học máy SVM Kiến trúc của thành phần TE được xây dựng dựa trên mô hình phát hiện văn bản dựa trên học máy của Julio Javier Castillo và cộng sự, như đã trình bày trong luận văn.

Tóm tắt chương hai

Trong chương này, luận văn trình bày phương pháp học máy để phát hiện kế thừa văn bản đơn ngôn ngữ Bên cạnh đó, luận văn cũng giới thiệu các phương pháp cơ bản và nâng cao cho việc phát hiện kế thừa văn bản đa ngôn ngữ.

Trong chương ba, luận văn sẽ đề xuất một mô hình phát hiện kế thừa văn bản đa ngôn ngữ, dựa trên hướng tiếp cận học máy cho phát hiện kế thừa văn bản đơn ngôn ngữ và các phương pháp cơ bản cho bài toán phát hiện kế thừa văn bản đa ngôn ngữ Mô hình này sẽ được thử nghiệm trên các cặp câu văn bản Việt-Anh.

Mô hình phát hiện kế thừa văn bản đa ngôn ngữ

Giới thiệu

Chúng tôi giới thiệu hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh, dựa trên phương pháp của Fandong Meng và cộng sự với một số điều chỉnh Các văn bản đầu vào cho hệ thống được dịch sang tiếng Việt thông qua công nghệ dịch máy, thay vì dịch sang tiếng Anh như trong mô hình gốc Hơn nữa, chúng tôi đã xây dựng lại thành phần phát hiện kế thừa văn bản TE, thay vì sử dụng bộ công cụ mã nguồn mở EDITS.

Mô hình phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh được xây dựng với đầu vào là các cặp câu văn bản cùng chủ đề, trong đó câu đầu tiên bằng tiếng Việt và câu thứ hai bằng tiếng Anh Đầu ra của mô hình là các cặp câu văn bản được gán một trong bốn nhãn: kế thừa hai chiều (bidirectional), kế thừa theo chiều xuôi (forward), kế thừa theo chiều ngược (backward), hoặc không kế thừa (no entailment).

Mô hình đề xuất

Hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh, được đề xuất trong luận văn, bao gồm hai thành phần chính như được mô tả trong Hình 8.

- Thành phần phát hiện kế thừa văn bản

Hình 8: Hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh

Kết quả Phát hiện kế thừa văn bản

Trong những năm gần đây, nhiều mô hình dịch máy đã đạt hiệu quả cao, nhưng việc yêu cầu tập ngữ liệu song ngữ để trích chọn quy tắc dịch là một thách thức, đặc biệt với các cặp ngôn ngữ như Anh-Việt Qua khảo sát, chúng tôi nhận thấy “Microsoft Translate API” là công cụ hiệu quả cho việc dịch văn bản giữa tiếng Anh và tiếng Việt Do đó, chúng tôi quyết định sử dụng “Microsoft Translate API” để chuyển đổi các cặp câu văn bản từ tiếng Anh sang tiếng Việt Đầu vào là tập các cặp câu văn bản Việt-Anh, và đầu ra là các cặp câu văn bản Việt-Việt.

Hình 9: Thành phần dịch máy

3.2.2 Thành phần phát hiện kế thừa

Thành phần phát hiện kế thừa văn bản được thể hiện như hình vẽ dưới đây:

Hình 10: Thành phần phát hiện kế thừa văn bản

Chúng tôi bắt đầu quá trình bằng cách tiền xử lý từng cặp câu văn bản thông qua các module tùy chọn Tiếp theo, chúng tôi trích xuất các đặc trưng và áp dụng chúng vào hai bộ phân lớp SVM Cuối cùng, chúng tôi kết hợp kết quả từ hai bộ phân lớp SVM để đưa ra phán quyết kế thừa cho mỗi cặp câu văn bản.

Các bước thự hiện của thành phần phát hiện kế thừa văn bản được thực hiện như sau:

3.2.2.1 Tiền xử lý Đầu vào: Tập các cặp câu văn bản có được sau khi văn bản thứ hai đã được dịch sang tiếng Việt bằng việc sử dụng thành phần dịch máy

Loại bỏ từ dừng Tách từ Đo độ tương đồng ngữ nghĩa và từ vựng Cosin Manhattan Jaccard ……

SVM2 đầu ra bao gồm các cặp câu văn bản đã được tách từ và loại bỏ các từ dừng Quá trình tiền xử lý được thực hiện để đảm bảo chất lượng và độ chính xác của dữ liệu.

 Tách từ: Cặp câu văn bản được tách từ bằng công cụ tách từ, tách câu vnTokenizer

 Loại bỏ từ dừng: Sau khi cặp câu văn bản được tách ra thành các từ thì chúng tôi sẽ loại bỏ các từ dừng xuất hiện trong đó

3.2.2.2 Trích chọn đặc trưng Đầu vào: Tập các cặp câu văn bản đã được tiền xử lý:được tách từ và được loại bỏ các từ dừng Đầu ra: Các giá trị đặc trưng của từng cặp câu văn

Chúng tôi tính được 20 đặc trưng thuộc về từ vựng và ngữ nghĩa Sau đây, chúng tôi xin trình bày một số đặc trưng tiêu biểu

Cho hai vector: ⃗ = ( , ……, ) và ⃗ = ( , … , ) trong không gian vector n chiều, với n là số lượng từ phân biệt xuất hiện trong T1 và T2 Các giá trị trong vector đại diện cho số lần xuất hiện của mỗi từ trong T1 và T2.

T1: Vụ tai nạn xảy ra làm 50 người bị chết

T2: 50 người bị chết trong vụ tai nạn giao thông

Trong cả T1 và T2, các từ phân biệt bao gồm: vụ, tai nạn, xảy ra, làm, 50, người, bị, chết, trong, giao thông Giá trị của hai vector ⃗ và ⃗ được thể hiện rõ ràng trong ngữ cảnh này.

Khoảng cách Manhattan: Được biết đến như khoảng cách City Block hay Khoảng cách này được xác định theo công thức sau:

Khoảng cách Euclidean: Khoảng cách này được tính theo công thức:

(⃗,⃗) = ∑ ( − ) Độ tương đồng Cosin: Được định nghĩa theo công thức sau:

Hệ số Matching:Gọi X là tập các từ phân biệt trong văn bản t, Y là tập các từ phân biệt trong giả thuyết h Khi đó, hệ số Matching là |X ∩ Y|

Hệ số Dice:Được định nghĩa theo công thức sau:

Hệ số Jaccard:Được định nghĩa theo công thức sau:

| ∪ | Chuỗi con chung dài nhất:

Một chuỗi con chung của hai xâu là chuỗi ký tự xuất hiện trong cả hai xâu, trong khi chuỗi con chung dài nhất là chuỗi con có độ dài lớn nhất Để tính độ dài của chuỗi con chung này giữa hai văn bản T1 và T2, chúng tôi chia nhỏ các văn bản thành các token, coi mỗi token như một ký tự, và tổng độ dài của T1 và T2 chính là tổng số các token.

T1: Vụ tai nạn xảy ra ở Hà Nội làm 50 người bị chết

T2: 50 người bị chết trong vụ tai nạn giao thông ở Hà Nội

Khi đó, chuỗi con chung dài nhất là: vụ- tai nạn-ở-Hà Nội

Cho hai chuỗi T1 và T2 Theo Levenshtein thì độ độ đo chuỗi con chung dài nhất được tính theo công thức: lcs(T1,T2) = ( ( , ))

Trong hầu hết các trường hợp thông thường, min(Length(T1), Length(T2)) bằng với Length(T2) do đó các giá trị được biểu diễn trong đoạn [0,1]

Phần trăm các từ của giả thuyết xuất hiện trong văn bản nguồn

Chúng tôi tiến hành đếm tổng số từ xuất hiện đồng thời trong hai văn bản T1 và T2 Gọi W = {w1, w2, …, wk} là tập hợp các từ chung có mặt trong cả T1 và T2, với k là số lượng phần tử trong W Độ dài của văn bản T1 được tính theo số lượng từ, ký hiệu là Length(T1).

Khi đó, chúng tôi có công thức tính phần trăm các từ của giả thuyết xuất hiện trong văn bản nguồn:

ℎ( 1)Khoảng cách chuẩn Levenshtein dựa trên từ

Khoảng cách Levenshtein, do Vladimir Levenshtein đề xuất vào năm 1965, đo lường sự khác biệt giữa hai chuỗi ký tự Nó xác định số bước tối thiểu cần thiết để chuyển đổi chuỗi T2 thành chuỗi T1 bằng ba phép biến đổi: xóa một ký tự, thêm một ký tự, hoặc thay thế một ký tự bằng ký tự khác.

Ví dụ: Khoảng cách giữa 2 chuỗi “kitten” và “sitting” là 3 vì phải dùng ít nhất ba lần biến đổi

3 sittin -> sitting (thêm kí tự "g")

Khoảng cách Levenshtein được tính bằng thuật toán quy hoạch động, sử dụng mảng 2 chiều kích thước (n+1)x(m+1), trong đó m và n là độ dài của hai chuỗi cần so sánh Dưới đây là đoạn mã minh họa cho hàm tính khoảng cách Levenshtein giữa hai chuỗi: `int LevenshteinDistance(char h[1 m], char t[1 n])`.

// d is a table with m+1 rows and n+1 columns declare int d[0 m, 0 n] for i from 0 to m d[i, 0] := i for j from 0 to n d[0, j] := j for i from 1 to m for j from 1 to n

{ if h[i] = t[j] then cost := 0 else cost := 1 d[i, j] := minimum( d[i-1, j] + 1, // xoá d[i, j-1] + 1, // thêm d[i-1, j-1] + cost // thay thế

3.2.2.3 Phân lớp kế thừa văn bản bằng học máy SVM

Chúng tôi sử dụng học máy SVM cho phán quyết kế thừa văn bản :

 Đầu vào : Tập các đặc trưng thu được từ bước trích chọn đặc trưng của từng cặp câu văn bản T1, T2

 Đầu ra : Tập các cặp câu văn bản đã được gán một trong bốn nhãn kế thừa:

Để gán bốn loại nhãn kế thừa cho các cặp câu văn bản, bao gồm “bidirectional”, “forward”, “backward”, và “no entailment”, chúng tôi sử dụng hai bộ phân lớp SVM nhị phân.

Bộ phân lớp nhị phân SVM1

 Đầu vào : Các đặc trưng của từng cặp văn bản T1, T2 Trong đó, văn bản T2 đóng vai trò là giả thuyết

Kết quả phân lớp sẽ bao gồm hai phán quyết kế thừa: “yes” và “no” Nhãn “yes” chỉ ra rằng T1 kế thừa T2, trong khi nhãn “no” cho thấy T1 không kế thừa T2.

Bộ phân lớp nhị phân SVM2

 Đầu vào : Các đặc trưng của từng cặp văn bản T1, T2 Trong đó, văn bản T1 đóng vai trò là giả thuyết

Kết quả phân lớp sẽ bao gồm hai phán quyết kế thừa: “yes” và “no” Nhãn “yes” chỉ ra rằng T2 kế thừa T1, trong khi nhãn “no” cho thấy T2 không kế thừa T1.

Từ kế quả của hai bộ phân lớp SVM, chúng tôi sẽ kết hợp và gán nhãn lại cho tập các cặp câu văn bản như sau :

 Gán nhãn “bidirectional” cho cặp câu văn bản nếu cặp câu văn bản được gán nhãn “yes” trong cả hai bộ phân lớp SVM1 và SVM2

 Gán nhãn “forward” cho cặpcâu văn bản nếu chúng được gán nhãn “yes” trong bộ phân lớp SVM1 và được gán nhãn “no” trong bộ phân lớp SVM2

 Gán nhãn “backward” cho cặpcâu văn bản nếu chúng được gán nhãn “no” trong bộ phân lớp SVM1 và được gán nhãn “yes” trong bộ phân lớp SVM2

 Gán nhãn “no entailment” cho cặp câu văn bản nếu chúng được gán nhãn “no” trong cả hai bộ phân lớp SVM1 và SVM2

Tóm tắt chương ba

Bài luận văn này đề xuất một mô hình phát hiện kế thừa trong văn bản đa ngôn ngữ, dựa trên phương pháp cơ bản của Mehdad và cộng sự [13] Đồng thời, nó cũng trình bày các bước thực hiện của hệ thống để đảm bảo tính khả thi và hiệu quả trong việc áp dụng mô hình này.

Trong chương bốn, luận văn sẽ trình bày về phần thực nghiệm, sau đó đưa ra kết quả, nhận xét và đánh giá.

Thực nghiệm và đánh giá

Tiêu đề	Phát Hiện Kế Thừa Văn Bản Đa Ngôn Ngữ
Tác giả	Nguyễn Thị Dung
Người hướng dẫn	PGS.TS Hà Quang Thụy
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	50
Dung lượng	859,82 KB