Luận văn thạc sĩ VNU UET phát hiện kế thừa văn bản đa ngôn ngữ 04

Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ

Khái quát về kế thừa văn bản

Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên nhiều ứng dụng xử lý ngôn ngữ tự nhiên Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niên hàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh các phương pháp tiếp cận của các nhà nghiên cứu Ba hội nghị RTE đầu tiên (RTE-1 năm 2005, RTE-2 năm

2006 và RTE-3 năm 2007) được tổ chức tại chuỗi PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning) Các hội nghị RTE còn lại (RTE-4 năm 2008, RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards and Technology) Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để các nhóm nghiên cứu chia sẻ kết quả của họ

1.1.1 Khái niệm kế thừa văn bản Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác nhau

Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một văn bản nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra ý nghĩa của H

Một cách chung nhất thì văn bản T được gọi là kế thừa giả thuyết H nếu như sự thật về H có thể suy luận được từ T Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản

Bảng 1: Một số ví dụ về kế thừa văn bản

STT Văn bản Giả thuyết Kế thừa

1 Bountiful đã tới sau khi chiến tranh kết thúc, cập vịnh San Francisco vào ngày 21 tháng 8 năm 1945 Bountiful sau đó được chỉ định làm một tàu bệnh viện ở Yokosuka, khởi hành từ San Francisco vào ngày 1 tháng 11 năm 1945

Bountiful đã tới San Francisco vào tháng 8 năm 1945

2 Tập đoàn Boeing đặt tại Chicago đã hủy bỏ ba đơn hàng vào năm 2006 mà Air Canada đã đặt

Trụ sở của tập đoàn Boeing nằm ở Canada

3 Dưới tiêu đề "Greed instead of quality", Die Tageszeitung của Đức nói chẳng có điều gì tốt đẹp việc thâu tóm nhà xuất bản Berliner Verlag của hai quỹ đầu tư của Anh và Mỹ

Hai quỹ đầu tư của Anh và

Mỹ đã thâu tóm Berliner Verlag

4 Scott Island đã đượcthuyền trưởng William Colbeck người chỉ huy của Morning, con tàu cứu viện cho cuộc viễn chinh của thuyền trưởng Robert

F Scott, tìm ra vào tháng 12 năm

Thuyền trưởng Scott đã đặt chân tới đảo Scott Island vào tháng 12 năm 1902

5 Chiếc xe hơi đã va vào hòm thư thuộc về James Clark, 68 tuổi, một người quen của gia đình James Jones

Clark là một người họ hàng của Jones

1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T và giả thuyết H Bài toán được phát biểu như sau:

 Đầu vào: Tập các cặp văn bản – giả thuyết thuộc cùng một chủ đề

 Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Yes” / “No”

Nhãn “Yes” tương ứng với trường hợp văn bản T kế thừa giả thuyết H, nhãn “No” tương ứng với trường hợp văn bản T không kế thừa giả thuyết H.

Kế thừa văn bản đa ngôn ngữ

1.2.1 Động lực và mục tiêu

Sự bùng nổ thông tinđược viết bằng các ngôn ngữ khác nhau trên web đã giúp cho người sử dụng có cơ hội tiếp cận và truyền tải thông tin về một chủ đềbằng ngôn ngữ của họ Sự phát triển mạnh mẽ củanội dung thông tin được viết bằng các ngôn ngữ khác nhau cho thấy nhu cầu cao của người dùngvề các ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữ.Theo như thống kế vể top mười ngôn ngữ được sử dụng trên mạng Internet năm

2013 thì tỉ lệthông tin được người dùng viết bằng các ngôn ngữAnh, Trung Quốc, Tây Ban Nha, và Bồ Đầu Nha trên web tương ứng là 800.6, 649.4, 222.4, 121.8 (theo đơn vịnghìn người sử dụng) 2 Điều đó cho thấy được sự cần thiết của công nghệ đa ngôn ngữđể giúp người dùng tiếp cận thông tin và giao tiếp với nhau trên Internet

Phát hiện kế thừa văn bản đơn ngôn ngữ đã mang lại nhiều lợi ích cho các ứng dụng xử lý ngôn ngữ tự nhiên Tuy nhiên, các ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữkhông thể đạt được mục tiêu như mong muốn khi bị khuyết thiếu thành phần phát hiện kế thừa văn bản đa ngôn ngữ Chính vì thế, bài toán phát hiện kế thừa văn bản đa ngôn ngữđã được hình thành

Từ những nhu cầu thực tế như đã đề cập ở trên, luận văn sẽ tìm hiểu về bài toán phát hiện kế thừa văn bản đa ngôn ngữ, các hướng tiếp cận để giải quyết bài toán và đề xuất mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp câu văn bản Việt - Anh

1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ

Kế thừa văn bản đa ngôn ngữ(Cross-lingual Textual Entailment - CLTE) lần đầu tiên được Mehdad[14] đề xuất như là sự mở rộng của kế thừa văn bản Kế thừa văn bản đa ngôn ngữđược định nghĩa là mối quan hệ kế thừa giữa hai văn bản được viết bằng các ngôn ngữ khác nhau Đưa ra một cặp văn bản T1 và T2 được viết bằng hai ngôn ngữ khác nhau, bài toán phát hiện kế thừa văn bản đa ngôn ngữlà bài toán xác định xem nghĩa của văn bản T2 có được suy luận ra từ nghĩa của văn bản T1 hay không và ngược lại

Theo Mehdad [14], có bốn trường hợp xảy ra trong bài toán phát hiện kế thừa văn bản đa ngôn ngữvới cặp văn bản T1-T2:

 Kế thừa hai chiều - bidirectional (T1→T2 và T2→T1): Hai văn bản kế thừa nhau, có nghĩa là hai văn bản tương đương nhau về mặt nội dung

2 http://www.internetworldstats.com/stats7.htm

 Kế thừa theo chiều xuôi - forward (T1→T2 và T2!→T1): T1 kế thừa T2 nhưng T2 không kế thừa T1

 Kế thừa theo chiều ngược - backward (T1!→ T2 và T2→T1): T2 kế thừa T1 nhưng T1 không kế thừa T2

 Không kế thừa - no entailment (T1!→ T2 và T2!→T1): Không có mối quan hệ kế thừa giữa T1 và T2

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bảnđa ngôn ngữvới văn bản thứ nhất được viết bằng tiếng Việt, văn bản thứ hai được viết bằng tiếng Anh:

Bảng 2: Một số ví dụ về kế thừa văn bảnđa ngôn ngữ

STT Văn bản 1 Văn bản 2 Kế thừa

1 Bountiful đã tới San Francisco vào tháng 8 năm 1945

Bountiful arrived after war's end, sailing into San Francisco Bay 21 August

1945 Bountiful was then assigned as hospital ship at Yokosuka, Japan, departing San Francisco 1 November

2 Tập đoàn Boeing tại Chicago đã hủy bỏ ba đơn đặt hàng vào năm

Boeing's headquarters is in Canada

3 Dưới tiêu đề "Greed instead of quality", Die Tageszeitung của Đức nói chẳng có điều gì tốt đẹp việc thâu tóm nhà xuất bản Berliner Verlag của hai quỹ đầu tư của Anh và Mỹ.

British and US-based investment funds acquire Berliner Verlag

4 Scott Island đã được thuyền trưởng William Colbeck, người chỉ huy của Morning, con tàu

Scott Island was discovered and landed upon in December

Bidirectional cứu viện cho cuộc viễn chinh của thuyền trưởng Robert F

Scott, tìm ra vào tháng 12 năm

Colbeck commander of the Morning, relief ship for Capt

5 Chiếc xe hơi đã va vào hòm thư của James Clark, 68 tuổi, một người quen của gia đình James Jones

Clark is a relative of Jones' No entailment

Theo các ví dụ trên:

 Cặp văn bản thứ nhất có mối quan hệ kế thừa là “backward” vì văn bản thứ nhất được suy luận từ văn bản thứ hai nhưng văn bản thứ hai lại không được suy luận từ văn bản thứ nhất

 Cặp văn bản thứ hai và thứ năm có mối quan hệ là “no entailment” vì văn bản thứ nhất không được suy luận từ văn bản thứ hai và ngược lại

 Cặp văn bản thứ ba có mối quan hệ kế thừa là “forward” vì văn bản thứ hai được suy luận từ văn bản thứ nhất nhưng văn bản thứ nhất lại không được suy luận từ văn bản thứ hai

 Cặp văn bản thứ tư có mối quan hệ kế thừa là “bidirectional” vì văn bản thứ nhất được suy luận từ văn bản thứ hai và ngược lại.

Các ứng dụng của bài toán phát hiện kế thừa văn bản đa ngôn ngữ

Kế thừa văn bản giúp việc hiểu ngôn ngữ tự nhiên được tốt hơn Ngoài ra, phát hiện kế thừa văn bản được ứng dụng rộng rãi trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thông tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading Comprehension), đồng bộ hóa nội dung tự động (Automatic Content Synchronization)

Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản được sử dụng để xác định những câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn từ câu hỏi của người dùng.Ví dụ, với câu hỏi được đặt ra: “Ai là người vẽ bức tranh Mona Lisa?” thì đoạn văn bản “Bức tranh nàng Mona Lisa của Leonardo Da Vinci đã tạo cảm hứng cho rất nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân tích quang học tới phân tích tâm lý học.” hay đoạn văn bản “Da Vinci bắt đầu vẽ Mona Lisa vào khoảng năm

1503, trong Thời Phục hưng Italia và theo Vasari.” kế thừa câu trả lời mong muốn là

“Leonardo Da Vinci là người vẽ bức tranh Mona Lisa.”

Trong đánh giá dịch máy (Machine Translation), một bản dịch tự động được gọi là chính xác khi nghĩa của nó tương đương với bản dịch theo chuẩn vàng, do đó cả hai bản dịch nên kế thừa nhau.Vì thế, kế thừa văn bản dùng để đánh giá sự tương đương về mặt ngữ nghĩa của các bản dịch

Trong trích chọn thông tin (Information Extraction), các thông tin được trích chọn nên kế thừa văn bản

Trong tóm tắt văn bản, kế thừa văn bản được sử dụng để xác định hoặc rút gọn lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản khác Điều này được sử dụng để tránh dư thừa thông tin khi trong một văn bản có những đoạn là kế thừa tri thức của nhau Áp dụng điều này, tóm tắt văn bản sử dụng quan hệ kế thừa để bỏ qua những thông tin không cần thiết giúp rút ngắn độ dài văn bản mà vẫn giữ được những thông tin quan trọng Đặc biệt, chúng ta có thể giải quyết bài toán đồng bộ hóa nội dung cho hai văn bản được viết bằng các ngôn ngữ khác nhau Mehdad [13] bằng bài toán phát hiện kế thừa văn bản đa ngôn ngữ.

Tóm tắt chương một

Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa văn bản đa ngôn ngữ.

Các hướng tiếp cận bài toán RTE và CLTE

Hướng tiếp cận cho bài toán RTE

Từ năm 2005 tới nay, hội nghị khoa học quốc tế thường niên về phát hiện kế thừa văn bản RTE (nhánh RTE của hội nghị phân tích văn bản: Text Analysis Conference) đã tập hợp được nhiều công trình nghiên cứu về RTE Trải qua tám kỳ hội nghị với hàng trăm bài báo và nhiều công trình nghiên cứu được công bố, nhìn chung hướng tiếp cận mà các tác giả sử dụng chủ yếu như: hướng tiếp cận sử dụng học máy với việc lựa chọn các đặc trưng, hướng tiếp cận dựa trên đại diện ở các mức độ khác nhau của xử lý ngôn ngữ tự nhiên (cú pháp, ngữ nghĩa), hướng tiếp cận dựa trên suy luận logic Hầu hết các hướng tiếp cận trên đều có thể dựa trên các cơ sở tri thức bên ngoài như WordNet 3 (một cơ sở dữ liệu từ vựng cho tiếng Anh WordNet cung cấp các định nghĩa tổng quát liên quan đến từ vựng, hữu ích trong việc xử lý ngôn ngữ tự nhiên) Một cơ sở dữ liệu từ vựng tiếng Anh khác mà các tác giả cũng thường xuyên sử dụng là FrameNet 4 Nhìn chung, mỗi hướng tiếp cận đều có những ưu điểm riêng nhưng thông thường chỉ giải quyết được một khía cạnh của bài toán, khó có thể đưa ra một cách tiếp cận nào rõ ràng giải quyết được tất cả các vấn đề trong kế thừa văn bản

Trên cơ sở tìm hiểu các phương pháp tiếp cận, Rui Wang [12]nhận xét rằng việc áp dụng học máy vào bài toán phát hiện kế thừa văn bản có rất nhiều ưu điểm như: tránh việc phải xác định ngưỡng kế thừa, có khả năng làm việc với một số lượng lớn các đặc trưng, cho phép tích hợp các thông tin từ nhiều mức như cú pháp, ngữ nghĩa hoặc sự kế hợp giữa chúng.

2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy TheoRui Wang [12], có hai bước cần thực hiện khi áp dụng phương pháp học máy

Bước đầu tiên là tiến hành trích xuất đặc trưng từ cặp văn bản – giả thuyết đầu vào Bước tiếp theo là việc sử dụng các bộ phân lớp với các đặc trưng vừa được trích xuất Các bộ phân lớp thường được sử dụng bao gồm: bộ phân lớp cây quyết định (Decision Trees- DTs), máy vector hỗ trợ (Support Vector Machines-SVMs), Entropy cực đại (Maximum Entropy-ME), Nạve Bayes (NB) Kết quả phân lớp kế thừa khơng chỉ phụ thuộc vào bộ phân lớp sử dụng, các đặc trưng được lựa chọn mà nó còn phụ thuộc vào cả dữ liệu huấn luyện Việc học dữ liệu huấn luyện có thể chia thành hai loại:học dựa trên các đặc trưng intra-pair và học dựa trên các đặc trưng cross-pair Phát hiện kế thừa văn bản là một bài toán kiểm tra sự tồn tại của mối quan hệ kế thừa giữa hai đoạn văn bản(văn bản T và giả thuyết H) Hầu hết các đặc trưng được trích xuất dựa trên mối quan hệ giữa T và H(các

4 http://framenet.icsi.berkeley.edu/ đặc trưng intra-pair), tuy nhiên, cũng có một số đặc trưng khác được tính dựa trên các đặc trưng giữa các cặp T-H với nhau (đặc trưng cross-pair)

2.1.1.1 Các đặc trưng Intra-pair (In-pair features)

Các đặc trưng Intra-pair là các đặc trưng được trích xuất từ việc so sánh cặp câu T và H Nếu chúng ta coi các câu như một nhóm các token (đơn vị từ vựng) thì sự trùng lặp từ vựng sẽ là một chỉ số tốt Ngoài ra, các đặc trưng có thể được trích xuất dựa từ cấu trúc cú pháp hoặc các đại diện ngữ nghĩa hoặc thậm chí cả các hình thức logic.Nếu chúng ta coi các câu như các túi từ (bag of words) thì các đặc trưng được xem xét bao gồm: số lượng các từ trùng lặp giữa T và H hoặctỉ lệ của số lượng từ trùng lặpvới tổng số các từ trong T hoặc H

J Bos và K Market [5] kết hợp phương pháp dựa trên trùng lặp từ và phương pháp dựa trên suy luận logic Một số tác giả sử dụng các đặc trưng phong phú ở các cấp độ xử lý đa dạng khác nhau.Sự kết hợp giữa các từ trong T và H được phát hiện và giúp cho việc phân lớp trong giai đoạn tiếp theo

A Newman và cộng sự [1] đề xuất ra hai hệ thống, hệ thống đầu tiên sử dụng một số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting Evaluation: một gói phần mềm với một tập các độ đo được sử dụng cho việc đánh giá tóm tắt tự động và phần mềm dịch máy trong xử lý ngôn ngữ tự nhiên), độ đo Cosin, và độ đo tương đồng cho danh từ dựa trên WordNet Với các đặc trưng dựa trên động từ, các tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ) Trên thực tế, hầu hết các nhóm sử dụng các đặc trưng từ vựng đều áp dụng các độ tương đồng giữa các từ dựa vào từ điển WordNet hoặc các nguồn tài nguyên từ vựng khác

Theo Rui Wang [12] thì R Adam sử dụng khoảng cách chỉnh sửa từ vựng như là một đặc trưng Về cơ bản, tác giả đếm số các token không được ánh xạ sau khi so sánh cặp và sau đó mở rộng độ dài của H bằng toán tử chèn từ phép chỉnh sửa.T kế thừa H nếu có một chuỗi các phép chuyển đổi được áp dụng để biến T thành H với tổng thể chi phí ở dưới ngưỡng cho phép Sự khác biệt ở đây là các tác giả tính toán khoảng cách chỉnh sửa dựa trên cây phụ thuộc, bao gồm các phép toán: chèn, xóa và thay thế

Các chi phí để xóa và thay thế là 0 nếu hai từ đó là tương đồng với nhau dựa theo từ điển WordNet và là khác 0 trong các trường hợp khác

Thêm nữa, Rui Wang [12] cũng chỉ ra rằng F Schilder và B T McInnessử dụng khoảng cách chỉnh sửa cây như là một đặc trưng và áp dụng các độ đo tương tự cây xấp xỉ khác Đối với bài toán RTE, văn bản T thường dài hơn giả thuyết H, trong đó văn bản

T thường chứa các thông tin nhiễu mà không liên quan đến việc phát hiện mối quan hệ kế thừa (đây chính là nguyên nhân vì sao mà phép xóa có chi phí là 0)

Từ trái nghĩa đóng một vài trò quan trọng cho bài toán phát hiện kế thừa trong văn bản, đó là việctìm các cặp từ trái nghĩa xuất hiện giữa T và H để làm đặc trưng phát hiện quan hệ kế thừa E Newman và cộng sự [1] cũng sử dụng đặc trưng này từ Verb-Ocean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ)

Tên thực thể (Named-Entity:NE) là một đặc trưng quan trọng Một số tác giả đã tiến hành thực nghiệm và kết quả cho thấy rằng hệ thống có sử dụng đặc trưng NE cho kết quả cao hơn so với hệ thống trước đó Số (hoặc các biểu thức số) xuất hiện trong T và H được so sánh trực tiếp hoặc sau khi được thay đổi giá trị

Một số đặc trưng được trích xuất từ các cấu trúc cú pháp, chức năng ngữ nghĩa, hoặc hình thức logic Theo Rui Wang [12], A Hickl và cộng sự tiến hành tiền xử lý các văn bản với phân tích từ vựng, phân tích cú pháp, giải quyết vấn đề đồng tham chiếu và phân tích ngữ nghĩa và sau đó đã trích xuất các đặc trưng dựa trên đầu ra, bao gồm các đặc trưng phụ thuộc, các đặc trưng diễn giải, các đặc trưng ngữ nghĩa Bên cạnh đó, thành phần cơ bản (Basic Element: BE)được tận dụng như một không gian đặc trưng BE là một bộ dữ liệu (tuple) đại diện cho các đoạn cú pháp quan trọng

2.1.1.2 Các đặc trưng Cross-Pair

Theo như tổng kết, Rui Wang [12] chỉ ra rằng: Trong hội nghị RTE-2, chỉ có nhóm tác giả Zanzotto và cộng sự trích xuất được các đặc trưng cross-pair Các tác giả không tính toán độ tương đồng giữa T và H mà tính độ tương đồng giữa các cặp T-H khác nhau dựa trên các thông tin về cú pháp và từ vựng Cụ thể, các tác giả sử dụng các hàm đánh giá sự tương đồng giữa các từ hoặc biểu thức phức tạp hơn để xác định các vị trí (anchor)

Hướng tiếp cận cho bài toán CLTE

 Hướng tiếp cận cơ bản: Đưa bài toán phát hiện kế thừa văn bản đa ngôn ngữCLTE về bài toán phát hiện kế thừa văn bản đơn ngôn ngữ RTE bằng cách dịch văn bản T2 về văn bản có cùng ngôn ngữ với văn bản T1 hoặc ngược lại

 Hướng tiếp cận nâng cao: Nhúng các kỹ thuật xử lý đa ngôn ngữvào trong quá trình phát hiện kế thừa văn bản đa ngôn ngữ

Sau đây, luận văn xin trình bày chi tiết từng hướng tiếp cận

2.2.1 Hướng tiếp cận cơ bản Ý tưởng chính của hướng tiếp cận này là thêm một thành phần dịch máy MT vào hệ thống phát hiện kế thừa văn bản đã có sẵn trước đó Ví dụ, văn bản T2 sẽ được dịch từ tiếng Anh sang tiếngViệt và sau đó sử dụng hệ thống phát hiện kế thừa văn bản để xác định mối quan hệ kế thừa giữa văn bản T1 và văn bản đã được dịch sang tiếng Việt của văn bản T2 Hướng tiếp cận tuân theo quy tắc chia để trị này mang lại một số ưu điểm như sau:

 Việc tách hệ thống phát hiện kế thừa văn bản đa ngôn ngữthành hai thành phần riêng biệt: Thành phần xử lý đa ngôn ngữ(MT) và thành phần phát hiện kế thừa văn bản (TE) sẽ dễ dàng hơn cho việc phát triển, gỡ lỗi và bảo trì hệ thống

 Dễ dàng mở rộng với các ngôn ngữ khác bằng cách sửa đổi thành phần dịch máy

MT, thành phần TE vẫn được giữ nguyên

Tuy nhiên, nhược điểm của hướng tiếp cận này là việc phụ thuộc vào các thành phần dịch máy MT có sẵn và chất lượng của các bản dịch Nếu chất lượng bản dịch không tốt thì thành phần phát hiện kế thừa TE có thể cho kết quả không chính xác

Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngôn ngữdựa theo hướng tiếp cận cơ bản của Mehdad [13]:

Hình 2: Hệ thống CLTE theo hướng tiếp cận cơ bản

Theo hướng tiếp cận này, Fandong Meng cộng sự [2] đã đề xuất ra hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Cho hai văn bản T1-T2 cần xác định mối quan hệ kế thừa, trong đó T2 được viết bằng tiếng Anh, T1 được viết bằng ngôn ngữ khác Đầu tiên, nhóm tác giả dịch văn bản T1 sang tiếng Anh Sau đó, nhóm tác giả sử dụng bộ công cụ mã nguồn mởEDITS để phát hiện mối quan hệ kế thừa giữa hai văn bản (EDITS là thành phần TE trong hướng tiếp cận cơ bản).Nhóm tác giả đã tiến hành thực nghiệm trên bốn cặp ngôn ngữ Pháp-Anh, Tây Ban Nha-Anh, Italia-Anh, Đức-Anh Độ chính xác trung bình qua các thực nghiệm của nhóm tác giả là 0.5

Mô hình đề xuất của Fandong Meng và cộng sự [2] được thể hiện như hình vẽ dưới đây:

Hình 3: Mô hình đề xuất của Fandong Meng cộng sự [2]

Cũng theo hướng tiếp cận cơ bản, Jiang ZHAO và cộng sự [4]đã xem xét bài toán phát hiện kế thừa văn bản đa ngôn ngữCLTE như một vấn đề về phân lớp đa lớp, trong đó nhiều loại đặc trưng được sử dụng kết hợp với một bộ phân lớp SVM đa lớp Hướng tiếp cận của nhóm tác giả có thể được chia thành ba bước: Đầu tiên, nhóm tác giả sử dụng thành phần dịch máy để thu hẹp khoảng cách khác biệt ngôn ngữ giữa văn bản T và giả thuyết H Ở bước thứ hai, nhóm tác giả thực hiện tiền xử lý để tối đa hóa sự tương đồng giữa hai đoạn văn bản để thực hiện phép tính chính xác hơn về độ tương đồng giữa hai văn bản Ngoài các đặc trưng về độ tương đồng giữa hai văn bản, nhóm tác giả đã đề xuất một số đặc trưng mới liên quan đến độ tương đồng ngữ nghĩa và sự khác biệt về câu

Cuối cùng tất cả các đặc trưng được kết hợp cùng nhau và làm dữ liệu đầu vào cho bộ phân lớp đa lớp SVM

Nhóm tác giả sử dụng các đặc trưng sau:

 Các đặc trưng cơ bản: Tập đặc trưng này bao gồm các độ đo chiều dài như:|A|,|B|,|A−B|,|B−A|,|A∪ B|,|A∩B|,|A|/|B| và |B|/|A|, trong đó A và B là hai văn bản, và chiều dài của văn bản là tổng các từ không bị lặp lại trong văn bản

Với các cặp văn bản thuộc các ngôn ngữ khác nhau, nhóm tác giả sử dụng dịch máy để đưa chúng về cùng một ngôn ngữ rồi tính toán đặc trưng cơ bản này

 Các đặc trưng tương đồng văn bản: Tập đặc trưng tương đồng văn bản bao gồm các độ đo: hệ số Jaccard, hệ số Dice, hệ số Overlap, hệ số Weighted overlap, độ tương đòng Cosine, khoảng cách Manhattan, khoảng cách Euclidean, khoảng cách Edit, khoảng cách Jaro-Winker

 Các đặc trưng tương đồng ngữ nghĩa: Nhóm tác giả đã giới thiệu một mô hình ẩn để mô hình các đại diện ngữ nghĩa của các từ trong các câu Nhóm tác giả đã sử dụng thừa số ma trận trọng số văn bản để mô hình ngữ nghĩa của câu

 Các đặc trưng khác biệt về câu: Nhóm tác giả cho rằng nhiều mối quan hệ kế thừa giữa hai câu được xác định chỉ dựa trên một phần nhỏ của câu Trên thực thế, mặc dù hai câu văn bản không kế thừa nhau nhưng độ tương đồng giữa hai câu cao (do việc sử dụng các độ đo tương đồng như đã đề cập ở trên) nên chúng vẫn được phán quyết là có mối quan hệ kế thừa Điều này dẫn đến kết quả phán quyết không chính xác Vì vậy, nhóm tác giả đã xây dựng các đặc trưng khác biệt về câu để phát hiện sự khác biệt giữa hai câu Nếu hai câu có độ đo tương đồng cao và độ đo khác biệt là thấp thì hai câu đó có khả năng kế thừa cao

 Các đặc trưng về quan hệ ngữ pháp: Các đặc trưng này được sử dụng để tìm ra mối quan hệ ngữ pháp giữa hai câu Đầu tiên, nhóm tác giả thay thế các từ trong câu bằng các nhãn từ loại của chúng (part of speech tags), sau đó áp dụng các độ đo tương đồng ngữ nghĩa trên các câu mới này

 Các đặc trưng bias: Các đặc trưng này được sử dụng để kiểm tra sự khác biệt giữa hai câu trong một số khía cạnh đặc biệt, ví dụ, tính phân cực, các thực thể được đặt tên

Jiang ZHAO và cộng sự [4] đã tiến hành thực nghiệm trên tập dữ liệu của hội nghị SemEval 2013 Tập dữ liêu bao gồm 1500 cặp câu văn bản (1000 cặp câu cho dữ liệu đào tạo, 500 cặp câu cho dữ liệu kiểm tra) cho bốn cặp ngôn ngữ khác nhau: Đức – Anh, Pháp – Anh, Tây Ban Nha – Anh, Ý – Anh Độ chính xác trung bình qua các thực nghiệm của nhóm tác giả là 0.43

2.2.2 Hướng tiếp cận nâng cao Ý tưởng của hướng tiếp cận này là tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật toán phát hiện kế thừa văn bản TE Điều này giúp phát hiện kế thừa văn bản đa ngôn ngữmà không cần dịch văn bản với độ phức tạp thấp Do đó, hướng tiếp cận này không bị phụ thuộc vào các thành phần dịch máy và nó có thể kiểm soát được toàn bộ hành vi của hệ thống Khi xử lý với cụm từ dựa trên dịch máy thống kê, có một hướng tiếp cận là trích chọn thông tin từ bảng cụm từ để làm phong phú thêm các quy tắc suy luận và quy tắc kế thừa Các quy tắc này có thể được sử dụng trong hệ thống phát hiện kế thừa văn bản dựa trên khoảng cách

Tiếp cận của luận văn với phát hiện kế thừa văn bản đa ngôn ngữ

Hầu hết các nhóm nghiên cứu khoa học đều phát triển bài toán phát hiện kế thừa văn bản đa ngôn ngữ theo hai hướng tiếp cận này

Hướng tiếp cận cơ bản có những ưu điểm như:Việc tách hệ thống phát hiện kế thừa văn bản đa ngôn ngữ thành hai thành phần riêng biệt (thành phần MT và thành phần TE) sẽ dễ dàng hơn cho việc phát triển, gỡ lỗi và bảo trì hệ thống; dễ dàng mở rộng với các ngôn ngữ khác bằng cách sửa đổi thành phần dịch máy MT, thành phần TE vẫn được giữ nguyên Tuy nhiên, hướng tiếp cận này có nhược điểm là việc phụ thuộc vào các thành phần dịch máy MT có sẵn và chất lượng của các bản dịch Nếu chất lượng bản dịch không tốt thì thành phần phát hiện kế thừa TE có thể cho kết quả không chính xác Theo hướng tiếp cận này, Fandong Meng và cộng sự [2] đã thực nghiệm với kêt quả độ chính xác trung bình là 0.50, Jiang ZHAO và cộng sự [4] đã thực nghiệm với kêt quả độ chính xác trung bình là 0.43 Để khắc phục nhược điểm của hướng tiếp cận cơ bản, hướng tiếp cận nâng cao tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật toán phát hiện kế thừa văn bản TE Điều này giúp phát hiện kế thừa văn bản đa ngôn ngữ mà không cần dịch văn bản với độ phức tạp thấp Do đó, hướng tiếp cận này không bị phụ thuộc vào các thành phần dịch máy và nó có thể kiểm soát được toàn bộ hành vi của hệ thống

Tuy nhiên, hạn chế của nguồn tài nguyên từ vựng song ngữ cùng với việc các ngôn ngữ khác nhau có cấu trúc cú pháp khác nhau nên kết quả thu được từ hướng tiếp cận này vẫn chưa cao.Theo hướng tiếp cận này, Marco Turchi và cộng sự có kết quả thực nghiệm với độ chính xác trung bình là 0.43

Hiện nay, trên thế giới có rất nhiều ngôn ngữ khác nhau được sử dụng giao tiếp

Trong số các ngôn ngữ này, tiếng Việt vẫn chưa được sử dụng phổ biến Do đó, ngữ liệu song ngữ giữa tiếng Việt với ngôn ngữ khác vẫn còn hạn chế cả về kích thước và chất lượng Ngoài ra, các cặp ngôn ngữ có thể khác nhau về cấu trúc cú pháp, ví dụ, tiếng Việt và tiếng Anh có cấu trúc cú pháp ngược nhau Từ nhược điểm này, luận văn thấy rằng việc áp dụng hướng tiếp cận cơ bản của Mehdadvà cộng sự [13] hiện tại sẽ mang lại kết quả tốt hơn cho việc áp dụng bài toán phát hiện kết thừa văn bản đa ngôn ngữ với ngôn ngữ chính là tiếng Việt (qua quá trình khảo sát các kết quả thu được từ các thực nghiệm được thực trên cùng một bộ dữ liệu được cung cấp trong hội nghị SemEval 12, hiện tại, hướng tiếp cận nâng cao có độ chính xác thấp hơn) Vì vậy, luận văn sẽ áp dụng hướng tiếp cận cơ bản vào mô hình đề xuất trong chương tiếp theo

Theo hướng tiếp cận cơ bản, Fandong Meng cộng sự [2] đã đề xuất mô hình phát hiện kế thừa văn bản đa ngôn ngữ với độ chính xác cao hơn các nhóm nghiên cứu khác

Do đó, luận văn sẽ xây dựng mô hình giải quyết bài toán bằng cách vận dụng mô hình củaFandong Meng cộng sự [2] Tuy nhiên, thành phần phát hiện kế thừa TE trong mô hình của nhóm tác giả chưa thực sự mang lại kết quả chưa cao Do đó, luận văn sẽ cải thiện thành phần TE dựa trên việc sử dụng học máy SVM Kiến trúc của thành phần TE này được xây dựng dựa trên mô hình phát hiện kế thừa văn bản dựa trên học máy của Julio Javier Castillo và cộng sự [6] như luận văn đã trình bày ở trên.

Tóm tắt chương hai

cơ bản và hướng tiếp cận nâng cao cho bài toán phát hiện kế thừa văn bản đa ngôn ngữ

Dựa theo hướng tiếp cận học máy cho phát hiện kế thừa văn bản đơn ngônngữ và hướng tiếp cận cơ bản cho bài toán phát hiện kế thừa văn bản đa ngôn ngữ, trong chương ba, luận văn sẽ đề xuất mô hình phát hiện kế thừa văn bản đa ngôn ngữvới thử nghiệm trên các cặp câu văn bản Việt-Anh.

Mô hình phát hiện kế thừa văn bản đa ngôn ngữ

Giới thiệu

Mô hình phát hiện kế thừa văn bản đa ngôn ngữViệt-Anh được phát biểunhư sau: Đầu vào: Tập các cặp câu văn bản thuộc cùng một chủ đề, trong đó, câu văn bản thứ nhất được viết bằng tiếng Việt, câu văn bản thứ hai được viết bằng tiếng Anh Đầu ra: Tập các cặp câu văn bản – giả thuyết đã được gán một trong số bốn nhãn sau:bidirectional (kế thừa hai chiều), forward (kế thừa theo chiều xuôi), backward (kế thừa theo chiều ngược), hoặc no entailment (không kế thừa).

Mô hình đề xuất

đề xuất Như trình bày trong hình vẽ, hệ thống phát hiện kế thừa văn bản đa ngôn ngữ bao gồm hai thành phần chính:

- Thành phần phát hiện kế thừa văn bản

Hình 8: Hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh

Kết quả Phát hiện kế thừa văn bản

3.2.1 Thành phần dịch máy Trong những năm gần đây, nhiều mô hình dịch máy đã mang lại hiệu quả cao Tuy nhiên, các mô hình dịch máy hiện tại yêu cầu tập ngữ liệu song ngữ để trích chọn các quy tắc dịch, trong khi tập ngữ liệu song ngữ trên một số cặp ngôn ngữ như Anh-Việt, Việt- Anh rất khó để có được Trong quá trình khảo sát, chúng tôi nhận thấy “Microsoft Translate API” là một công cụ khá hiệu quả để dịch văn bản tiếng Anh sang văn bản tiếng Việt và ngược lại Vì thế chúng tôi lựa chọn “Microsoft Translate API” để dịch văn bản tiếng Anh sang văn bản tiếng Việt Đầu vào: Tập các cặp câu văn bản Việt-Anh Đầu ra: Tập các cặp câu văn bản Việt-Việt

Hình 9: Thành phần dịch máy

3.2.2 Thành phần phát hiện kế thừa Thành phần phát hiện kế thừa văn bản được thể hiện như hình vẽ dưới đây:

Hình 10: Thành phần phát hiện kế thừa văn bản

Với từng cặp câu văn bản, đầu tiên, chúng tôi tiến hành tiền xử lý với các module tùy chọn Sau đó, chúng tôi tiến hành trích chọn các đặc trưng và sử dụng các đặc trưng này vào hai bộ phân lớp SVM Cuối cùng, chúng tôi kết hợp kết quả từ hai bộ phân lớp SVM vàđưa ra phán quyết kế thừa cho từng cặp câu văn bản

Các bước thự hiện của thành phần phát hiện kế thừa văn bản được thực hiện như sau:

3.2.2.1 Tiền xử lý Đầu vào: Tập các cặp câu văn bản có được sau khi văn bản thứ hai đã được dịch sang tiếng Việt bằng việc sử dụng thành phần dịch máy

Loại bỏ từ dừng Tách từ Đo độ tương đồng ngữ nghĩa và từ vựng Cosin Manhattan Jaccard ……

SVM2 Đầu ra: Tập các cặp câu văn bản đã được tách từ và được loại bỏ các từ dừng

Quá trình tiền xử lý được thực hiện như sau:

 Tách từ: Cặp câu văn bản được tách từ bằng công cụ tách từ, tách câu vnTokenizer

 Loại bỏ từ dừng: Sau khi cặp câu văn bản được tách ra thành các từ thì chúng tôi sẽ loại bỏ các từ dừng xuất hiện trong đó

3.2.2.2 Trích chọn đặc trưng Đầu vào: Tập các cặp câu văn bản đã được tiền xử lý:được tách từ và được loại bỏ các từ dừng Đầu ra: Các giá trị đặc trưng của từng cặp câu văn

Chúng tôi tính được 20 đặc trưng thuộc về từ vựng và ngữ nghĩa Sau đây, chúng tôi xin trình bày một số đặc trưng tiêu biểu

Cho hai vector:⃗ = ( , ……, ) và ⃗ = ( , … , ) trong không gian vector n chiều Trong đó, n là số các từ phân biệt xuất hiện trong T1, T2 và , là số lần xuất hiện mỗi từ trong số các từ phân biệt T1 và T2

T1: Vụ tai nạn xảy ra làm 50 người bị chết

T2: 50 người bị chết trong vụ tai nạn giao thông

Các từ phân biệt trong cả T1 và T2 là: vụ, tai nạn, xảy ra, làm, 50, người, bị, chết, trong, giao thông Khi đó, giá trị của hai vector ⃗ và ⃗ được thể hiện như sau:

Khoảng cách Manhattan: Được biết đến như khoảng cách City Block hay Khoảng cách này được xác định theo công thức sau:

(⃗,⃗) = ∑ | − | Khoảng cách Euclidean: Khoảng cách này được tính theo công thức:

(⃗,⃗) = ∑ ( − ) Độ tương đồng Cosin: Được định nghĩa theo công thức sau:

Hệ số Matching:Gọi X là tập các từ phân biệt trong văn bản t, Y là tập các từ phân biệt trong giả thuyết h Khi đó, hệ số Matching là |X ∩ Y|

Hệ số Dice:Được định nghĩa theo công thức sau:

Hệ số Jaccard:Được định nghĩa theo công thức sau:

| ∪ | Chuỗi con chung dài nhất:

Một chuỗi con chung của hai xâu là một chuỗi con các ký tự xuất hiện trong cả hai xâu Chuỗi con chung dài nhất là một chuỗi con chung có độ dài lớn nhất Để tính được độ đo này khi T1 và T2 là những văn bản thì chúng tôi chia nhỏ chúng ra thành các token và coi mỗi token này như là một kí tự và độ dài của T1 và T2 chính là tổng số các token

T1: Vụ tai nạn xảy ra ở Hà Nội làm 50 người bị chết

T2: 50 người bị chết trong vụ tai nạn giao thông ở Hà Nội

Khi đó, chuỗi con chung dài nhất là: vụ- tai nạn-ở-Hà Nội

Cho hai chuỗi T1 và T2 Theo Levenshtein thì độ độ đo chuỗi con chung dài nhất được tính theo công thức: lcs(T1,T2) = ( ( , ))

Trong hầu hết các trường hợp thông thường, min(Length(T1), Length(T2)) bằng với Length(T2) do đó các giá trị được biểu diễn trong đoạn [0,1]

Phần trăm các từ của giả thuyết xuất hiện trong văn bản nguồn

Cho cặp văn bản T1 và T2 Chúng tôi đếm tổng số từ cùng xuất hiện trong cả T1 và T2 Giả sử gọi W = {w 1 , w 2 , …, w k } là tập các từ cùng có mặt trong T1 và T2, W gồm có k phần tử ; Length(T1) là độ dài của văn bản T1 tính theo đơn vị từ

Khi đó, chúng tôi có công thức tính phần trăm các từ của giả thuyết xuất hiện trong văn bản nguồn:

ℎ( 1)Khoảng cách chuẩn Levenshtein dựa trên từ

Khoảng cách Levenshtein (được Vladimir Levenshtein đề ra vào năm 1965) thể hiện khoảng cách khác biệt giữa hai chuỗi kí tự Khoảng cách Levenshtein giữa chuỗi T2 và chuỗi T1 là số bước ít nhất biến đổi chuỗi T2 thành chuỗi T1 thông qua ba phép biến đổi là: xóa một kí tự, thêm một kí tự và thay kí tự này thành kí tự khác

Ví dụ: Khoảng cách giữa 2 chuỗi “kitten” và “sitting” là 3 vì phải dùng ít nhất ba lần biến đổi

3 sittin -> sitting (thêm kí tự "g")

Khoảng cách Levenshtein được tính toán bằng cách sử dụng thuật toán quy hoạch động, tính toán trên mảng 2 chiều (n+1).(m+1) với m, n là độ dài của chuỗi cần tính Sau đây là đoạn mã (T2,T1 là chuỗi cần tính khoảng cách và n, m là độ dài của hai chuỗi) int LevenshteinDistance(char h[1 m], char t[1 n]) // d is a table with m+1 rows and n+1 columns declare int d[0 m, 0 n] for i from 0 to m d[i, 0] := i for j from 0 to n d[0, j] := j for i from 1 to m for j from 1 to n { if h[i] = t[j] then cost := 0 else cost := 1 d[i, j] := minimum( d[i-1, j] + 1, // xoá d[i, j-1] + 1, // thêm d[i-1, j-1] + cost // thay thế

3.2.2.3 Phân lớp kế thừa văn bản bằng học máy SVM

Chúng tôi sử dụng học máy SVM cho phán quyết kế thừa văn bản :

 Đầu vào : Tập các đặc trưng thu được từ bước trích chọn đặc trưng của từng cặp câu văn bản T1, T2

 Đầu ra : Tập các cặp câu văn bản đã được gán một trong bốn nhãn kế thừa:

“bidirectional”, “forward”, “backward”, hoặc “no entailment” Để gán được bốn loại nhãn kế thừa cho các câu cặp văn bản như đã liệt kê ở trên, chúng tôi sử dụng hai bộ phân lớp SVM nhị phân:

Bộ phân lớp nhị phân SVM1

 Đầu vào : Các đặc trưng của từng cặp văn bản T1, T2 Trong đó, văn bản T2 đóng vai trò là giả thuyết

 Đầu ra : Kết quả phân lớp với phương án hai phán quyết kế thừa (“yes”, “no”)

Nhãn “yes” tương đương với T1 kế thừa T2, nhãn “no” tương đương với T1 không kế thừa T2

Bộ phân lớp nhị phân SVM2

 Đầu vào : Các đặc trưng của từng cặp văn bản T1, T2 Trong đó, văn bản T1 đóng vai trò là giả thuyết

 Đầu ra : Kết quả phân lớp với phương án hai phán quyết kế thừa (“yes”, “no”)

Nhãn “yes” tương đương với T2 kế thừa T1, nhãn “no” tương đương với T2 không kế thừa T1

Từ kế quả của hai bộ phân lớp SVM, chúng tôi sẽ kết hợp và gán nhãn lại cho tập các cặp câu văn bản như sau :

 Gán nhãn “bidirectional” cho cặp câu văn bản nếu cặp câu văn bản được gán nhãn “yes” trong cả hai bộ phân lớp SVM1 và SVM2

 Gán nhãn “forward” cho cặpcâu văn bản nếu chúng được gán nhãn “yes” trong bộ phân lớp SVM1 và được gán nhãn “no” trong bộ phân lớp SVM2

 Gán nhãn “backward” cho cặpcâu văn bản nếu chúng được gán nhãn “no” trong bộ phân lớp SVM1 và được gán nhãn “yes” trong bộ phân lớp SVM2

 Gán nhãn “no entailment” cho cặp câu văn bản nếu chúng được gán nhãn “no” trong cả hai bộ phân lớp SVM1 và SVM2

Việc phán quyết kế thừa cho từng cặp câu văn bản – giả thuyết cũng tương tự như việc phân lớp văn bản Vì thế, để áp dụng được học máy SVM vào bài toán phát hiện kế thừa văn bản thì chúng tôi coi mỗi cặp câu văn bản nguồn - giả thuyết tương ứng với một mẫu văn bản Mẫu thuộc lớp dương khi cặp câu văn bản nguồn - giả thuyết có quan hệ kế thừa, và thuộc lớp âm khi cặp câu văn bản nguồn - giả thuyết không có quan hệ không kế thừa Tập giá trị các đặc trưng sẽ tương ứng với vector trọng số của Hai bộ phân lớp SVM này sử dụng các dữ liệu huấn luyện và các nhóm đặc trưng giống nhau

Nhóm đặc trưng một bao gồm các độ đo như: khoảng cách Manhattan, khoảng cách Euclidean, độ tương đồng Cosin, hệ số Matching, hệ số Dice, hệ số Jaccard, hệ số Jaro, và một số đặc trưng khác.

Tóm tắt chương ba

và cộng sự [13] và trình bày các bước thực hiện của hệ thống

Trong chương bốn, luận văn sẽ trình bày về phần thực nghiệm, sau đó đưa ra kết quả, nhận xét và đánh giá.

Thực nghiệm và đánh giá

Môi trường thực nghiệm

Bảng 3: Cấu hình phần cứng

Bảng 4: Công cụ phần mềm

STT Tên phầm mềm Tác giả Nguồn

1 Eclipse-SDK-3.4.0- win32 http://www.eclipse.org/dowloads

2 vnTokenizer Lê Hồng Phương http://www.loria.fr/~lehong/tools/vn

Dữ liệu thực nghiệm

Việt, câu văn bản T2 là câu văn bản nguyên gốc trong tập dữ liệu RTE-3 Do đó, dữ liệu thực nghiệm là dữ liệu chuẩn, đáng tin cậy Tập dữ liệu có định dạng như hình dưới đây:

Hình 11: Dữ liệu thực nghiệm cho quá trình đào tạo (training)

Thực nghiệm

Để thử nghiệm chương trình, chúng tôi tiến hành các bước sau:

 Bước 1:Dịch câu văn bản T2 trong tập văn bản từ tiếng Anh sang tiếng Việt bằng thành phần dịch máy

 Bước 2:Sử dụng bộ công cụ mã nguồn mở vnTokenizer của tác giả Lê Hồng Phương để tách từ cho tất cả các cặp câu văn bản và tiến hành loại bỏ từ dừng

 Bước 3: Từ tập các cặp văn bản đã được tách từ, chúng tôi tiến hành trích xuất các đặc trưng bằng cách sử dụng các độ đo như đã giới thiệu ở chương ba cùng với việc sử dụng từ điển đồng nghĩa tiếng Việt

 Bước 4: Nhóm các giá trị đặc trưng thu được ở bước 3 Sau đó, sử dụng các nhóm đặc trưng này và tập dữ liệu huấn luyện để học mô hình cho các bộ phân lớp SVM

 Bước 5: Sau khi đã có mô hình học ở bước 4, chúng tôi áp dụng cho tập dữ liệu kiểm tra để đưa ra phán quyết kế thừa

Tập dữ liệu kiểm trasau khi qua các bộ phân lớp thì sẽ được phân lớp vào một trong các lớp sau:BI (bidirectional), FW (forward), BW (backward), và NE (no entailment).

Đánh giá hệ thống

Hệ thống được đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ hồi tưởng (recall), và độ đo F (F-measure) Ba độ đo này được tính theo các công thức sau đây:

+ Ý nghĩa của các giá trị được chú thích trong bảng dưới đây:

Bảng 4: Ý nghĩa của các tham số

Số các cặp câu văn bản – giá thuyết thực tế là kế thừa và hệ thống cũng phán quyết là kế thừa

Số các cặp câu văn bản – giả thuyết thực tế là kế thừa và hệ thống phán quyết là không kế thừa

Số các cặp câu văn bản – giả thuyết thực tế là không kế thừa và hệ thống cũng phán quyết là không kế thừa

Số các cặp câu văn bản – giả thuyết thực tế là không kế thừa và hệ thống phán quyết là kế thừa

Chúng tôi tiến hành thực nghiệm trên 1600 cặp câu văn bản từ tập dữ liệu chuẩn trong hội nghị RTE-3 (trong đó câu văn bản T1 đã được dịch sang tiếng Việt) Chúng tôi sử dụng phương pháp đánh giá chéok-fold cross validationvới k=4để đánh giá kết quả thực nghiệm Chúng tôi chia dữ liệu thành bốn phần là Data1, Data2,Data3, Data4 Trong đó, một phần dữ liệu được sử dụng để làm dữ liệu kiểm tra, ba phần dữ liệu được sử dụng để làm dữ liệu huấn luyện cho hai bộ phân lớp SVM1 và SVM2

Chúng tôi thực hiện các thí nghiệm như sau:

 Thí nghiệm 1: Tập dữ liệu kiểm tra: Data1, tập dữ liệu huấn luyện: Data2, Data3,Data4

 Thí nghiệm 2: Tập dữ liệu kiểm tra: Data2, tập dữ liệu huấn luyện: Data1, Data3, Data4

Kết quả của các thí nghiệm được thể hiện trong bảng dưới đây:

Bảng 5: Giá trị độ đo của các tập dữ liệu khi sử dụng Đo

BI FW BW NE BI FW BW NE BI FW BW NE

Dưới đây là biểu đồ thể hiện kết quả tổng hợp khi lấy giá trị trung bình kết quả theo đánh giá chéo 4-fold cross validation

Hình 12: Biểu đồ thể hiện kết quả trung bình của các thực nghiệm 4.4.2 Đánh giá hệ thống

Chúng tôi đã sử dụng ba độ đo: precision, recall và F-measure để đánh giá hệ thống

Qua quá trình tổng hợp và đánh giá các kết quả thực nghiệm, chúng tôi thấy rằng mô hình hệ thống đề xuất ở chương ba có tính khả thi với độ đo F trung bình đạt được là 0.61.

Tóm tắt chương bốn

là độ đo F trung bình bằng 0.61 Kết quả này cho thấy được tính khả thi của mô hình đề xuất

Kết luận và định hướng nghiên cứu tiếp theo

Qua quá trình tìm hiểu và phân tích các phương pháp phát hiện kế thừa văn bản đa ngôn ngữ của một số nhóm nghiên cứu trên thế giới và phát triển các kết quả nghiên cứu về phát hiện kế thừa văn bản tiếng Việt đã có [11, 10], luận văn đề xuất một mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp câu văn bản Việt-Anh Luận văn đạt được các kết quả sau đây:

- Hệ thống hóa được bài toán phát hiện kế thừa văn bản đa ngôn ngữcũng như phân tích các hướng tiếp cận để giải quyết bài toán phát hiện kế thừa văn bản đa ngôn ngữ

- Đề xuất và cài đặt mô hình phát hiện kế thừa văn bản đa ngôn ngữtrên các cặp văn bản Việt – Anh

- Thực nghiệm trên tập dữ liệu chuẩn của hội nghị RTE-3 với các cặp câu văn bản Việt – Anh Kết quả thực nghiệm với độ đo F trung bình là 0.61 cho thấy được tính khả thi của luận văn

Tuy nhiên, luận văn vẫn tồn tài mặt hạn chế như:chưa so sánh được độ tương đồng trực tiếp giữa cặp câu văn bản Việt – Anh, chưa mở rộng phát hiện kế thừa văn bản cho các ngôn ngữ khác (đóng vai trò là văn bản T2) ngoài tiếng Anh

Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu bài toán phát hiện kế thừa văn bản đa ngôn ngữtheo hướng tiếp cận nâng cao như đã đề cập trong mục 2.2.2 với ý tưởng so sánh độ tương đồng trực tiếp trên cặp câu văn bản Việt-Anh mà không sử dụng dịch máy, mở rộng hệ thống phát hiện kế thừa văn bản đa ngôn ngữ trên nhiều ngôn ngữ khác nhau.

Tiêu đề	Phát Hiện Kế Thừa Văn Bản Đa Ngôn Ngữ
Tác giả	Nguyễn Thị Dung
Người hướng dẫn	PGS.TS Hà Quang Thụy
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	50
Dung lượng	860,36 KB