1. Trang chủ
  2. » Giáo Dục - Đào Tạo

LUẬN VĂN KỸ THUẬT NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

82 106 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 3,13 MB

Nội dung

vànghiên cứu các nguồn tài liệu như từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, vănbản song ngữ Anh – Việt,… Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyếtnhững vấn đề chính sau: tì

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2011

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

Trang 2

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng

Đà Nẵng - Năm 2011

LỜI CAM ĐOAN

Trang 3

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Võ Trung Hùng.

2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.

3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Trang 4

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC HÌNH vi

MỞ ĐẦU 1

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN 3

1.1 KHO DỮ LIỆU SONG NGỮ 3

1.1.1 Khái niệm 3

1.1.2 Ứng dụng của kho dữ liệu song ngữ 4

1.1.2.1 Ứng dụng trong ngôn ngữ học – thống kê 5

1.1.2.2 Ứng dụng trong ngôn ngữ học so sánh 5

1.1.2.3 Ứng dụng trong giảng dạy ngoại ngữ 5

1.1.2.4 Ứng dụng trong việc nghiên cứu dịch thuật 6

1.1.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới 6

1.1.3.1 British National Corpus (BNC) 6

1.1.3.2 Canadian Hansard Corpus (Anh – Pháp) 7

1.1.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 7

1.1.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh 8

1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 8

1.2.1 Cơ sở dữ liệu 8

1.2.1.1 Tổng quan về XML 9

1.2.1.2 Thuật ngữ 9

1.2.1.3 Cấu trúc của một file XML 9

1.2.1.4 Tạo lập một tài liệu XML 10

1.2.1.5 Những thành phần của một tài liệu XML 11

1.2.1.6 Kết Luận 12

1.2.2 Thu thập dữ liệu 13

1.2.3 Xử lý ngôn ngữ tự nhiên 15

1.2.3.1 Xử lý đầu vào 15

1.2.3.2 Tách đoạn 15

1.2.3.3 Tách câu 15

1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 16

1.3.1 Thuật toán liên kết từ 16

1.3.2 Thuật toán liên kết từ bằng lớp ngữ nghĩa ClassAlign 17

1.3.3 Thuật toán tách câu 19

Trang 5

CHƯƠNG 2: GIẢI PHÁP XÂY DỰNG KHO DỮ LIỆU SONG NGỮ

22

2.1 GIỚI THIỆU 22

2.2 MÔ HÌNH TỔNG THỂ 22

2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 23

2.3.1 Các tiêu chí chọn mẫu ngữ liệu 23

2.3.2 Chọn nguồn dữ liệu và chuẩn hóa 24

2.3.3 Xây dựng cấu trúc kho dữ liệu song ngữ 26

2.3.4 Các nguồn dữ liệu thu thập 29

2.3.4.1 Nguồn Từ điển Lạc Việt 29

2.3.4.2 Nguồn Báo điện tử VOV News 31

2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn 33

CHƯƠNG 3: PHÁT TRIỂN ỨNG DỤNG 35

3.1 GIẢI PHÁP XỬ LÝ DỮ LIỆU 35

3.1.1 Kỹ thuật liên kết câu trực tuyến bằng YouAlign 35

3.1.2 Công cụ cập nhật tài liệu bằng RTF của Microsoft Word 40

3.1.3 Kỹ thuật cập nhật sử dụng các macro 41

3.1.4 Kỹ thuật trích lọc dữ liệu file html 44

3.1.5 Một số định dạng đã xử lý 45

3.2 TRÍCH TỪ TỪ ĐIỂN LẠC VIỆT 45

3.3 TRÍCH TỪ VOV NEWS 53

3.4 TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP 64

3.5 MỘT SỐ NGUỒN DỮ LIỆU KHÁC 67

3.6 KHAI THÁC KHO DỮ LIỆU SONG NGỮ 67

KẾT LUẬN 72

DANH MỤC TÀI LIỆU THAM KHẢO 73 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)

PHỤ LỤC

Trang 6

i

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 7

ii DANH MỤC HÌNH Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ 14

Hình 1.2 Tách câu bằng mạng nơ-ron 20

Hình 2.1 Mô hình tổng thể hệ thống 23

Hình 2.2 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau 25

Hình 2.3 Các giải pháp tổ chức CSDL 26

Hình 2.4 Ví dụ dữ liệu lưu trên 1 tập tin 27

Hình 2.5 Ví dụ dữ liệu lưu trên 2 tập tin 28

Hình 2.6 Giao diện của Từ điển Lạc Việt 30

Hình 2.7 Ví dụ về trang web ngôn ngữ chính 32

Hình 2.8 Ví dụ về trang web có phiên bản ngôn ngữ khác 32

Hình 2.9 Sơ đồ dịch câu tiếng Anh sang tiếng Việt 34

Hình 3.1 Đăng nhập YouAlign 36

Hình 3.2 Giao diện gióng câu tài liệu 37

Hình 3.3 Kết quả canh tài liệu 38

Hình 3.4 Ví dụ kết quả canh tài liệu dạng tập tin HTML 39

Hình 3.5 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML 42

Hình 3.6 Mẫu tập tin *.Doc 42

Hình 3.7 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin 43

Hình 3.8 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên một tập tin 43

Hình 3.9 Sơ đồ quá trình trích từ Từ điển Lạc Việt 46

Hình 3.10 Mục từ có các câu ví dụ Anh – Việt 47

Hình 3.11 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 48

Hình 3.12 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 48

Hình 3.13 Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục 51

Hình 3.14 Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục 52

Hình 3.15 Hệ thống bóc tách nội dung của VietSpider 54

Hình 3.16 Sơ đồ quá trình xử lý trích từ trang web sử dụngYouAlign 55

Hình 3.17 Trang web tiếng Việt trước khi tách lấy nội dung 56

Hình 3.18 Trang web tiếng Anh trước khi tách lấy nội dung 57

Hình 3.19 Ví dụ tạo luồng trang VOV News tiếng Việt 58

Hình 3.20 Trang web tiếng Việt khi thực hiện tách lấy nội dung 58

Trang 8

iii Hình 3.21 Trang web tiếng Anh khi thực hiện tách lấy nội dung 59

Hình 3.22 Dữ liệu sau khi bóc tách 60

Hình 3.23 Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner 61

Hình 3.24 Tách câu trực tuyến của MorphAdorner 62

Hình 3.25 Kết quả tách câu tiếngAnh bằng công cụ trực tuyến MorphAdorner 63

Hình 3.26 Kết quả tách câu tiếngViệt bằng công cụ trực tuyến MorphAdorner 64

Hình 3.27 Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn 65

Hình 3.28 Giao diện Vdict 66

Hình 3.29 Sơ đồ khai thác kho dữ liệu song ngữ Anh – Việt 68

Hình 3.30 Trò chơi học tiếng Anh qua mẫu câu Anh-Việt 69

Hình 3.31 Chương trình hiển thị mẫu câu tiếng Anh 69

Hình 3.32 NSD nhập câu dịch tiếng Việt 70

Hình 3.33 Kết quả sau khi dịch 70

Trang 9

do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ

Vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ, tuynhiên các tài liệu thường nằm rải rác nhiều nơi dưới nhiều hình thức khác nhau Do

đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví

dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏimột kho dữ liệu song ngữ rất lớn

Hiện nay trên thế giới có rất nhiều kho dữ liệu song ngữ như Anh – Pháp,Pháp – Anh, Anh – Hoa,… Tuy nhiên, đối với tiếng Việt hiện nay chưa có kho dữliệu song ngữ nào như vậy được công bố chính thức và chia sẽ cho người sử dụng.Vấn đề đặt ra là làm thế nào để xây dựng được một kho dữ liệu song ngữ Anh – Việt

từ các nguồn dữ liệu rải rác

Để góp phần giải quyết vấn đề trên, chúng tôi đề xuất đề tài: “Nghiên cứu xây

dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt”.

2 Mục tiêu nghiên cứu

Mục tiêu chính mà đề tài hướng đến là nghiên cứu xây dựng kho dữ liệu chứacác cặp câu Anh – Việt từ các nguồn tài liệu khác nhau như: trang web, từ điển,sách, văn bản,… dưới nhiều định dạng khác nhau, như: XML, TXT, DOC, vànghiên cứu các nguồn tài liệu như từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, vănbản song ngữ Anh – Việt,… Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyếtnhững vấn đề chính sau: tìm hiểu về các kho ngữ liệu song song, thu thập các nguồnngữ liệu song ngữ Anh – Việt, nghiên cứu các giải pháp xây dựng kho dữ liệu songngữ Anh – Việt để tạo ra được một cơ sở dữ liệu phục vụ cho việc học tiếng Anh,dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,

Trang 10

2

-3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là các cơ sở dữ liệu của kho dữ liệu song ngữ, cácnguồn tài liệu có thể xây dựng nên kho dữ liệu song ngữ

4 Phương pháp nghiên cứu

Đề tài sử dụng các kỹ thuật tách câu từ một văn bản, bài báo, Tìm hiểu cách xây dựng kho dữ liệu song ngữ để xây dựng kho dữ liệu song ngữ Anh – Việt

5 Ý nghĩa khoa học và thực tiễn của đề tài:

Kho dữ liệu song ngữ Anh – Việt là tài nguyên có giá trị trong việc tạo ra đượcmột cơ sở dữ liệu phục vụ cho việc dạy và học tiếng Anh, dịch tự động, nghiên cứu

xử lý ngôn ngữ tự nhiên,

6 Cấu trúc luận văn

Báo cáo của luận văn được tổ chức thành 3 chương

Chương 1 Nghiên cứu tổng quan Trình bày khái niệm về kho ngữ liệu songngữ, các ứng dụng của kho, nghiên cứu một số kho ngữ liệu song ngữ đang có trênthế giới; nghiên cứu về XML, một số thuật toán về xử lý ngôn ngữ tự nhiên,… Chương 2 Giải pháp xây dựng kho dữ liệu song ngữ Chúng tôi trình bày một

số giải pháp xây dựng kho ngữ liệu song ngữ

Chương 3 Phát triển ứng dụng Trình bày kết quả xây dựng kho dữ liệu từnhiều nguồn dữ liệu khác nhau

Trang 11

3

-CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

Trong thời đại bùng nổ thông tin như hiện nay, nhu cầu tra cứu từ trên máytính rất lớn, vì vậy có một tài nguyên rất lớn đó là các kho ngữ liệu song ngữ Vàothập kỷ 1980, tài liệu song ngữ được đưa vào sử dụng trong các hệ thống xử lý ngôn

tự động, nhất là phục vụ cho việc dịch tự động Alan Melby đã có ý tưởng lưu trữlại các bản dịch song ngữ của người, để sau này các nhà nghiên cứu có thể khai thácđược gì từ đó Phương pháp liên kết song ngữ tự động được nghĩ ra đầu tiên bởiMartin Kay và Martin Roschéien vào năm 1987 và từ đó đến nay đã có nhiềuphương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ khác nhau:đoạn, câu, từ, ngữ, Cho đến nay, việc nghiên cứu song ngữ đã được thực hiện vớicác cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa, [1]Trong chương này chúng tôi trình bày các vấn đề liên quan đến kho dữ liệusong ngữ, các hệ cơ sở dữ liệu và phương pháp xử lý ngôn ngữ tự nhiên áp dụng khixây dựng các kho dữ liệu song ngữ

1.1 KHO DỮ LIỆU SONG NGỮ

1.1.1 Khái niệm

a Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứthực tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là củangôn ngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạngngôn ngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử.Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ vàngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu

để xây dựng kho dữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữnày là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song cóthể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ Trong đề tài này thực hiện xâydựng ngữ liệu song song của hai ngôn ngữ gọi tắt là ngữ liệu song ngữ cụ thể là ngữliệu song ngữ Anh - Việt [1]

Trang 12

4

-b Kho ngữ liệu (corpus) là một tập hợp các mảnh ngôn ngữ được chọn lựa vàsắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như một mẫungôn ngữ [18]

Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho dữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho dữ liệu songsong, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho dữ liệu song song thì dữliệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngônngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngônngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Phápsang tiếng Việt

1.1.2 Ứng dụng của kho dữ liệu song ngữ

Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưngchủ yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy mô nhỏhơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho dữliệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tựđộng, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoạingữ,

Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp

ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, ỞViệt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang websong ngữ Anh-Việt như ThanhNien, Vietnamnet, NhanDan, Riêng kho ngữ liệu

Trang 13

1.1.2.1 Ứng dụng trong ngôn ngữ học – thống kê

Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vàoviệc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]

1.1.2.3 Ứng dụng trong giảng dạy ngoại ngữ

Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu

và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặcbiệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đíchdạy tiếng Anh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp chongười học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trongtiếng mẹ đẻ, Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảngdạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết Đồng thời, các giáoviên khi sử dụng kho song ngữ có thể làm giàu thêm kiến thức của họ, cung cấpthêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trong việc thiết kếgiáo trình [17]

1.1.2.4 Ứng dụng trong việc nghiên cứu dịch thuật

Trang 14

1.1.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới

1.1.3.1 British National Corpus (BNC)

Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn

Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007

Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực vàquốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứatuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loạivăn bản khác Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộchội thoại không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các

độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nóiđược thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộchọp chính phủ đài phát thanh và điện thoại

Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm

1994 Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng cácngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC

World (2001) và phiên bản thứ ba BNC XML Edition (2007) Kể từ khi hoàn thành

dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNCSampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) vàBNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,viết luận và đàm thoại ) [14][15]

1.1.3.2 Canadian Hansard Corpus (Anh – Pháp)

Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng đượctrích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chính

Trang 15

7

-thức tại Canada là tiếng Anh và tiếng Pháp Nội dung của nó được giới hạn trongluận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụnhư thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu đượcchuẩn bị trước

Có một vài phiên bản của ngữ liệu song song Hansard Canada Các phiên bảnUSC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)

từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với2.000.000 từ trong tiếng Anh và tiếng Pháp Phiên bản này được tự do tải về tạitrang web USC TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùngđăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm

thông Quốc gia (National Institute of Information and Communications Technology

- NICT) Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [20]

1.1.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh

Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngônngữ học Tính toán của Trường đại học Peking Kho ngữ liệu gồm có hơn 200.000liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,

ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tintức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, vănxuôi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,kinh tế và kinh doanh Đa số các văn bản được lấy từ các trang web song ngữ trong

Trang 16

từ các từ điển,… Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do

đó một công việc cần thiết nữa đó là lựa chọn công cụ để lưu trữ dữ liệu song ngữ.Hiện nay có nhiều công cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:XML, Word, HTML, các hệ quản trị cơ sở dữ liệu như Access, SQL, Oracle,… tuynhiên tùy theo mục đích khai thác mà ta lực chọn một công cụ thích hợp cho việckhai thác, sau đây tôi xin giới thiệu đôi nét về XML

1.2.1.1 Tổng quan về XML

XML (Extensible Markup Language) ra đời vào tháng 2/1998, là ngôn ngữ cókiến trúc gần giống với HTML nhưng XML nhanh chóng trở thành một chuẩnphổ biến trong việc chuyển đổi thông tin qua các trang web sử dụng giao thứcHTTP Trong khi HTML là ngôn ngữ chủ yếu về hiển thị dữ liệu thì XML lại đangphát triển mạnh về việc chuyển tải, trao đổi và thao tác dữ liệu bằng XML XMLđưa ra một định dạng chuẩn cho cấu trúc của dữ liệu hoặc thông tin bằng việc tựđịnh nghĩa định dạng của tài liệu Bằng cách này, dữ liệu được lưu trữ bằng XML

sẽ độc lập với việc xử lý

1.2.1.2 Thuật ngữ

Trang 17

9

-Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc vớiXML:

Document Type Definition (DTD) – Định nghĩa loại tài liệu

Mô tả cách thức tài liệu được thông dịch thông quá các thẻ đánh dấu.DTD định nghĩa cho các loại tài liệu khác nhau

1.2.1.3 Cấu trúc của một file XML

Mục đích của việc tổ chức thông tin là để con người có thể đọc và hiểu được những gì mà nó muốn truyền tải Chúng ta xem một tập tin văn bản sau đây:

Theo cách tổ chức thông tin của tập tin trên, chúng ta thật khó để hiểu tập tinnày muốn nói lên điều gì Bây giờ, chúng ta tổ chức tập tin trên theo định dạng một tài liệu XML một cách đơn giản nhất

F10 Shimano Calcutta 47.76

F20 Bantam Lexica 49.99

Trang 18

1.2.1.4 Tạo lập một tài liệu XML

Chúng ta có thể sử dụng trình soạn thảo đơn giản nhất là Notepad để soạn thảo tài liệu XML, nhưng phải tuân thủ theo qui tắc sau:

Trang 19

1.2.1.5 Những thành phần của một tài liệu XML

Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo

Phần tử (Elements): Một tài liệu XML được cấu thành từ những phần tử.

Một phần tử có thẻ mở và thẻ đóng Giữa thẻ mở và thẻ đóng là nội dung củaphần tử đó Phần tử có thể chứa dữ liệu hoặc có thể lồng vào một phần tử khác

Phần tử gốc (root): Trong tài liệu XML, chỉ có một phần tử gốc, và phần tử

này sẽ chứa tất cả những phần tử của tài liệu XML do chúng ta tạo ra Theo ví dụtrên, ta thấy chỉ có một phần tử “Catalog”

Trang 20

12

-Thuộc tính (Attributes): Như đã trình bày ở trên, một phần tử có thể chứa

dữ liệu hoặc chứa phần tử khác hoặc cả hai Bên cạnh đó, phần tử có thể rỗng,khi đó nó có thể chứa thuộc tính Một thuộc tính chỉ là một sự lựa chọn để gắn

dữ liệu đến phần tử Một thuộc tính đặt trong thẻ mở của phần tử và chỉ ra giá trịcủa nó bằng cách sử dụng cặp “name=value”

XML được xây dựng như là một chuẩn cho việc trình bày và trao đổi dữ

quan bao gồm XML DOM, XPath, XSL, và XML Schema Vì XML là mộtchuẩn công cộng không thuộc về một công ty nào, nên người dùng có thể tự dotrong việc phát triển các ứng dụng trên XML và không bị giới hạn cách sử dụng Vìthế, XML ngày nay đang được sử dụng rất phổ biến và tương lai sẽ là một chuẩn

Trang 21

Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt đượcchọn là tập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phùhợp, như: các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việttrong các từ điển, ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khácnhau (sách, điện tử) và được nhập hay quét vào rồi qua công đoạn nhận dạngchữ OCR Sau đây là các nguồn ngữ liệu song ngữ Anh - Việt thô có thể thuthập được:

a Nguồn từ điển: trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví

dụ hướng dẫn sử dụng từ đó, và các ví dụ bằng tiếng Anh này cũng được dịch

chính xác (1-1) sang tiếng Việt Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trongcác từ điển là đạt yêu cầu nhất (nhất là các từ điển nổi tiếng, nhiều người sửdụng, các từ điển được các cơ quan hay học giả uy tín biên soạn, các câutiếng Anh được các nhà làm từ điển trích từ từ điển Oxford, Webster) Hầu hếtcác ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn về phongcách/lĩnh vực)

Trang 22

14

-Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ

b Ngữ liệu SUSANNE: đây là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhà ngôn ngữ học - máy tính (đứng đầu là Geoffrey

Sampson) thuộc trường đại học Sussex, Anh SUSANNE (Surface andUnderlying Structural ANalyses of Naturalistic English) là một phần trong

dự án phân tích và đánh dấu tiếng Anh theo hướng ngôn ngữ học máy tính.SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown

c Nguồn Internet: đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này

có lợi thế là chúng đã tồn tại sẵn dưới dạng điện tử (nên không phải nhập liệu

lại bằng tay) Kho ngữ liệu trên Internet thì vô cùng lớn với vô vàn các lĩnhvực/phong cách khác nhau, nhưng chỉ có một số ít các trang Web song ngữ làđáp ứng được đúng tiêu chuẩn

Trang 23

15

-d Nguồn sách: bao gồm các sách dạy tiếng Anh, các mẫu câu tiếng Anh,

sách song ngữ tin học, khoa học kỹ thuật,…

1.2.3 Xử lý ngôn ngữ tự nhiên

Song song với việc thu thập dữ liệu, với các nguồn dữ liệu đầu vào như văn bản, các trang web, ebook,… thì cần phải có một số công đoạn xử lý văn bản đầu vào, phân tích, tách đoạn, tách câu,…để đạt được mục đích

Các dữ liệu đầu vào là các văn bản, trang web được lấy về sẽ phải qua giai đoạn tiền xử lý gồm các công việc như sau:

là các quy ước trong việc trình bày văn bản bao gồm dấu hiệu bắt đầu đoạn và kết thúc đoạn

1.2.3.3 Tách câu

Trong văn bản tiếng Anh, tiếng Việt hay một số ngôn ngữ khác, thông thườngngười ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câukhác để nhận biết kết thúc câu Tuy nhiên do tính nhập nhằng của dấu báo hiệu kếtthúc câu nên việc phân định ranh giới không đơn giản Ví dụ dấu chấm có thể biểuthị cho một dấu thập phân (1,234.567), một cụm từ viết tắt (Mr., Dr., GS., TS., …),

ngoặc đơn, ngoặc kép hay ở cuối câu

1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Trang 24

16

-1.3.1 Thuật toán liên kết từ

T h e pr o c es s or i s t h e ce n t r a l co m p o n e n t o f a c o m p u t er sy st e m

B ộ xử l ý l à th à nh p h ầ n t r u n g t â m củ a m ộ t h ệ th ố n g m á y t í nh

Thuật toán liên kết từ bằng từ điển song ngữ Anh – Việt DicAlign được

mô tả như sau:

Gọi câu tiếng Anh là S (Source sentence: câu nguồn), câu tiếng Việt là T(Target sentence: câu đích) Ta có cặp câu được dịch bởi nhau là (S,T) Gọi s là

từ (hoặc cụm từ) trong S; t là từ được dịch theo ngữ cảnh trong T ứng với strong S Gọi DTs là tập các nghĩa trong từ điển cho mục từ s, mỗi một nghĩađược ký hiệu là dt

thể có trong T Trong đó: VD là từ điển các từ/cụm từ có thể có trong tiếngViệt

WS = { s }

Thuật toán DicAlign:

Đầu vào: Câu tiếng Anh và câu tiếng Việt

Đầu ra: Danh sách chứa các mối liên kết

stop-word (là các từ chức năng, từ không được dịch, như: the, on, in,…)

B2: Câu tiếng Việt T sau khi đã phân đoạn từ ta thu được danh sách các

nghĩa của s dựa vào từ điển Anh – Việt để đưa vào danh sách DTs

Trang 25

17

-B4: Từ những kết quả chuẩn bị ở trên ta tính độ tương đồng về hình vị

như sau:

Sim (dt,wt)=

wt dt

wt dt

*2

Trong đó Sim (dt,wt) là độ tương đồng về hình vị của dt với

|dt| và |wt| : số hình vị trong từ của dt và wt

|dt ∩ wt| : là số hình vị giao nhau giữa dt và wt

tính giá trị DTSim(s,wt) theo công thức DTSim(s,wt) = maxSim(dt,wt)

B6: Với mỗi s trong WS, chọn wt trong WT sao cho DTSim(s,wt) =

B7: Kết xuất danh sách chứa các mối liên kết, ta có kết quả của thuậttoán DictAlign

1.3.2 Thuật toán liên kết từ bằng lớp ngữ nghĩa ClassAlign

Sue Ker Chang đã dùng thêm thuật toán ClassAlign để liên kết lớp vớilớp thay vì liên kết từ với từ như thuật toán DictAlign Những lớp này là tậpcác từ đồng nghĩa /gần nghĩa với nhau Nghĩa là thay vì liên kết từ s với từ t thì

Class) khác nhau, và giữa các lớp này có thể có sự tương đồng về mặt ngữnghĩa Vì vậy, để xác định độ tương đồng về mặt ngữ nghĩa giữa hai lớp X, Y,tác giả dùng công thức sau:

ClassSim (X,Y) =

Y X

b X to Y

a from

,(

Trang 26

18

-Trong đó |X| = tổng số từ trong lớp X, |Y| = tổng số từ trong lớp Y

ALLCONN = tất cả các cặp từ (s,t) được tạo ra khi chạy thuật toán

DictAlign trên toàn bộ các cặp câu dịch của tập ngữ liệu song ngữ dùng đểhuấn luyện Để minh họa công thức trên, chúng ta thử xét các lớp sau:

(EC): C5 = {lady, girl, female, dame, broad, madam, Mrs, missis, miss}(VC):C5 = {bà, quý bà, bà xã, bác gái, bu, bu nó, cô, cô bé, con mụ, con

mẹ, phu nhân, quý phu nhân, vợ, gái điếm}

Vậy theo công thức trên, thường thì hai lớp tiếng Anh và tiếng Việt mà

có cùng tên sẽ có độ tương đồng cao nhất

Thuật toán ClassAlign:

Đầu vào: Các cặp câu song ngữ

Đầu ra: Danh sách chứa các mối liên kết

Trang 27

19

-B1: Chạy DictAlign trên tất cả các câu trong tập ngữ liệu song ngữ đểlấy được danh sách những liên kết khởi đầu ALLCONN

(X,Y), với CX, CY là sự phân lớp ngữ nghĩa của những từ tương ứng trongngôn ngữ nguồn và ngôn ngữ đích

B3: Tạo một liên kết (X,Y) nếu ClassSim (X,Y) >h1 (h1 là ngưỡng được

B4: Biên dịch danh sách những cặp lớp mà thoã các điều kiện trong bước

3 và gọi chúng là những danh sách Luật

1.3.3 Thuật toán tách câu

Một câu bắt đầu bằng một chữ cái in hoa, kết thúc bằng dấu chấm (.), chấmthan (!), chấm hỏi (?) Tuy nhiên các có các trường hợp các dấu nêu trên xuất hiện ởnhiều trường hợp mơ hồ Vì vậy ta cần xử lý các trường hợp nhập nhằng đó trướctiên đặc biệt là dấu chấm (.) Phương pháp tách câu bằng mạng nơ-ron với mô hìnhtách câu tổng quát được trình bày như sau:

Bộ phận tách token

Bộ phận tìm kiếm từ loại

Xây dựng mảng mô tả

Sắp xếp bằng mạng nơ-ron Văn bản đầu vào

Văn bản đã được phân đoạn câu

Begin

End

Trang 28

bộ phận tìm kiếm từ loại.

Ta có thể mô tả thuật toán tách câu thành các token như sau:

Bước 1: Tách một chuỗi con từ văn bản đầu vào

Bước 2: Nếu chuỗi con không tồn tại (hết văn bản) thì kết thúc

Bước 3: Kiểm tra xem chuỗi con tồn tại trong từ điển hay không Nếu cótrong từ điển thì ta được một token và chuyển đến bước 5

Bước 4: Tách chuỗi con thành n chuỗi con (n>=1) nhờ vào các dấu câutrong chuỗi con Nếu tồn tại chuỗi con có trong từ điển thì ta được n token, nếukhông tồn tại thì ta được 1 token

Bước 5: Quay lại bước 1

Tách câu bằng mạng nơ-ron là cách tiếp cận do D Palmer đưa ra với độ chínhxác rất cao (99,5%)

Trang 29

2.1 GIỚI THIỆU

Ngày nay, nhu cầu về thông tin toàn cầu tăng cao, do đó kho ngữ liệu songngữ trở thành nguồn tài nguyên có giá trị cho các ứng dụng ngôn ngữ và xử lý ngônngữ tự nhiên để vượt qua ranh giới về sự khác biệt ngôn ngữ Trong nhiều năm trởlại đây, tầm quan trọng kho ngữ liệu song ngữ được đánh giá rất cao do đó việc xâydựng một kho ngữ liệu song ngữ nhằm đáp ứng nhu cầu về thông tin, về học tập,dịch thuật,… là rất cần thiết Hiện nay với lượng thông tin trên mạng toàn cầu đaphần là tiếng Anh, tại Việt Nam số lượng kho ngữ liệu song song Anh – Việt khôngnhiều và không được phổ biến rộng rãi, do đó trong luận văn này chúng tôi đưa ragiải pháp để xây dựng kho ngữ liệu song ngữ Anh – Việt phục vụ xử lý tiếng Việtnhằm đáp ứng nhu cầu sử dụng kho cho giảng dạy, học tập tiếng Anh, dịch máy, xử

lý ngôn ngữ tự nhiên,…

2.2 MÔ HÌNH TỔNG THỂ

Kiến trúc tổng thể của hệ thống bao gồm những thành phần sau:

- Bộ sưu tập dữ liệu: sưu tập các nguồn dữ liệu song ngữ Anh – Việt ban đầu

từ ebook, văn bản song ngữ, các trang web song ngữ, từ điển,

- Tiền xử lý dữ liệu: có thể nhập trực tiếp dữ liệu, xử lý thủ công hoặc hệthống, chuẩn hóa dữ liệu trước khi đưa vào kho Việc chuẩn hóa dữ liệu là việcchuyển đổi định dạng dữ liệu thành định dạng tương thích với mục đích của hệthống

- Khai thác dữ liệu: những ứng dụng của dữ liệu song ngữ sau khi xử lý

Trang 30

22

-Hình 1.1 Mô hình tổng thể hệ thống

2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ

2.3.1 Các tiêu chí chọn mẫu ngữ liệu

Để bảo đảm được hiệu quả khai thác về sau, đồng thời để đáp ứng đúng mụctiêu nghiên cứu đã đặt ra, chúng ta cần áp dụng 4 tiêu chí trong khi xem xét lấymẫu ngữ liệu song ngữ Anh-Việt như sau:

a Chuẩn ngôn ngữ: ngữ liệu tiếng Anh cũng như tiếng Việt đều phải là những câu được xem là chuẩn mực, nghĩa là phải đúng ngữ pháp

và được nhiều người chấp nhận hay nhiều người sử dụng Không thuthập các bản dịch có tính cá nhân (chỉ sử dụng cho mục đích cá nhân),

Web CSDL Từ điển ebook

Trang 31

23

-hoặc các câu tự nghĩ ra, vì như thế không đảm bảo được tính thực tế củangữ liệu

b Cách dịch 1 – 1: các ngữ liệu song ngữ Anh-Việt phải thực sự là

bản dịch 1 - 1 của nhau, không được dịch thoát ý, dịch tóm lược, dịchtương đương/ đồng nghĩa hay dịch theo kiểu giải thích, diễn giải Vì nếukhông phải là dịch 1 – 1 thì máy tính rất khó liên kết từ một cách tự

động cho song ngữ đó được Ngoài ra, chúng ta cần bản dịch 1 - 1 để

còn có thể so sánh, đối chiếu trên từng cấp độ giữa hai ngôn ngữ

c Ngữ liệu phải phù hợp với phong cách và lĩnh vực của đối tượng nghiên cứu: Đối tượng nghiên cứu của chúng tôi là các văn bản

và các câu thông thường

d Ngữ liệu dạng điện tử: ngoài 3 tiêu chuẩn bắt buộc trên, chúng ta

sẽ ưu tiên chọn những ngữ liệu song ngữ Anh-Việt nào mà đang tồn tại

dưới dạng điện tử, hoặc có thể chuyển tự động tương đối dễ dàng về dạngđiện tử, như vậy đỡ tốn công sức nhập liệu lại bằng tay vào máy tính

2.3.2 Chọn nguồn dữ liệu và chuẩn hóa

Ngoài các nguồn dữ liệu song ngữ thô có thể thu thập được đã nêu ở chương

1, hiện nay rất khó tìm ra được những ngữ liệu song ngữ Anh-Việt mà đáp ứngđầy đủ các tiêu chuẩn trên Trong các nguồn tài liệu thô ta thường thấy các câu ví

dụ song ngữ trong các nguồn ngữ liệu khác nhau thì có hình thức trình bày khácnhau Ví dụ như :

Hoặc

Trang 32

24

-Hình 1.1 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau

Chính vì vậy, sau khi thu thập ngữ liệu vào máy tính (bằng tay hay bằngmáy quét rồi qua công đoạn nhận dạng ký tự OCR), người nhập cần phải chỉnhcác dạng đó thành một định dạng (format) nhất định Ngoài ra, có những câu songngữ rất dài, hoặc việc ngắt câu ở phần tiếng Anh và tiếng Việt không khớp nhau.Chính vì vậy, người nhập cần phải chỉnh lại để hai câu Anh và Việt trùng khớpnhau

Để chuẩn hoá thành một dạng, một tiêu chuẩn duy nhất Việc chuẩn hoángữ liệu gồm hai nhiệm vụ chính:

1 Chuẩn hoá dạng ngữ liệu song ngữ Anh - Việt: đưa về đúng dạng điện tử, định dạng tập tin, mã/font tiếng Việt, chuẩn chính tả (bao gồm cả

việc bỏ dấu, viết i/y)

2 Liên kết câu (sentence – alignment): phân ngữ liệu thành từng cặp câu song ngữ Anh - Việt bằng cách đánh dấu xem ứng với mỗi câu

tiếng Anh, có câu tiếng Việt nào đi kèm (bản dịch của nó) Công việc nàytương đối đơn giản, không tốn nhiều thời gian và công sức Công việc nàyđược thực hiện bằng tay, ngay khi nhập ngữ liệu song ngữ hoặc bằng máynếu là dạng dữ liệu văn bản điện tử có sẵn [18]

2.3.3 Xây dựng cấu trúc kho dữ liệu song ngữ

Về mặt tổ chức lưu trữ dữ liệu chúng tôi chọn việc lưu trữ kho trên XML Cóhai giải pháp có thể xử dụng để lưu trữ là lưu trữ toàn bộ dữ liệu (Anh, Việt) trêncùng một tập tin đa ngữ hay lưu trữ trên nhiều tập tin:

Trang 34

<sentence id="1">80.000 tấn dầu thô từ mỏ Bạch Hổ

đã được nạp vào bể chứa </sentence>

Hình 1.2 Ví dụ dữ liệu lưu trên 1 tập tin

Trong trường hợp dữ liệu được lưu trữ trên nhiều tập tin, như vậy tương ứngvới mỗi ngôn ngữ sẽ được lưu trữ trên một tập tin và có được đánh số chỉ mụcgiống nhau, ví dụ có dạng như sau:

<Sen id="1"> <Sen id="1">

Trang 35

27

-Our management

couldn’t find a way to

counter the sharp reduction

in overseas sales

</Sen>

<Sen id="2">

The committee will

accept the revised proposal

to avoid political debate

</Sen>

Ban quản lý của chúng

ta chưa tìm được một giải pháp nhằm đối phó với sự sụt giảm nghiêm trọng doanh

số bán hàng nước ngoài

</Sen>

<Sen id="2">

Ủy ban sẽ chấp nhận bản kiến nghị đã được sửa đổi nhằm tránh việc tranh cãi mang yếu tố chính trị

</Sen>

Hình 1.3 Ví dụ dữ liệu lưu trên 2 tập tin

Trong trường hợp này chúng tôi chọn giải pháp lưu trữ trên nhiều tập tin vớicác lý do sau:

- Khi cần thiết bổ sung ngôn ngữ sẽ dễ dàng, ta chỉ cần tạo ra một tập tin dữliệu ở ngôn ngữ mà ta muốn cùng cấu trúc sử dụng với các ngôn ngữ khác và lưutrữ song song với các tập tin khác

- Cấu trúc của tập tin không thay đổi, tất cả các tập tin dữ liệu đều có cùngmột cấu trúc và điều này rất có lợi khi lập trình để khai thác các dữ liệu

2.3.4 Các nguồn dữ liệu thu thập

2.3.4.1 Nguồn Từ điển Lạc Việt

Từ điển là một thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vàomột từ, một cụm từ đơn giản, chúng ta có thể tìm được nghĩa giải thích, các thôngtin liên quan một cách nhanh chóng Có thể phân chia từ điển thành hai loại lớn:

Trang 36

28

-Từ điển bách khoa Đây là loại từ điển không nhằm xây dựng các từ trong

ngôn ngữ nói chung, mà chủ yếu đưa ra và giải thích các khái niệm; trình bày

từ lai lịch của nó đến các quan điểm khác nhau, cùng với những thay đổi của

nó (nếu có) về mặt nội dung,…

Loại từ điển bách khoa cho tất cả các lĩnh vực được gọi là bách khoa toànthư, còn loại cho từng lĩnh vực một thì được gọi là từ điển bách khoa chuyênngành Ví dụ: Từ điển bách khoa nông nghiệp, từ điển bách khoa y học,…

Từ điển ngôn ngữ Đây là loại từ điển được xây dựng bằng những con

đường "ngôn ngữ học" Chúng được phân ra như sau:

Từ điển một ngôn ngữ: Được biên soạn cho một ngôn ngữ cụ thể nào đó

ở từng mặt, từng lĩnh vực Ví dụ: Từ điển giải thích, từ điển đồng nghĩa, từđiển chính tả,…

Từ điển nhiều ngôn ngữ: Được biên soạn trên cơ sở đối chiếu hai haynhiều ngôn ngữ Ở đây cũng có thể gồm từ điển đối chiếu phổ thông như: Từđiển Anh – Việt, từ điển Nga – Việt, từ điển Việt – Pháp,…; từ điển đối chiếuchuyên ngành như: Từ điển toán học Anh – Việt, từ điển y học Nga – Việt, từđiển hoá học Anh – Việt, từ điển công nghệ thông tin Anh – Việt,… [19]

Với loại từ điển nhiều ngôn ngữ, hiện nay, có nhiều loại từ điển bao gồm: từđiển giấy, từ điển điện tử, từ điển trực tuyến,… và bao gồm nhiều ngôn ngữ khácnhau Ví dụ như: từ điển Anh – Pháp - Việt, từ điển Anh – Anh - Việt,…

Từ điển điện tử là từ điển được lưu trữ và trình bày trên hệ thống thông tinđiện tử Trong đó có từ điển Lạc Việt là bộ từ điển song ngữ Anh - Việt đầu tiên,được sử dụng khá rộng rãi Số lượng từ trong phần mềm này rất lớn, được chia vào

4 từ điển Anh - Việt, Việt - Anh, Anh - Anh và từ điển Tin học Chương trình rất dễ

sử dụng với giao diện hỗ trợ cả tiếng Việt và tiếng Anh Với mỗi từ được tra, chúng

sẽ có đầy đủ thông tin về từ loại, ngữ nghĩa, cách phát âm cũng như các câu ví dụkèm theo bao gồm một câu tiếng Anh và câu dịch tiếng Việt của nó

Giao diện của chương trình thể hiện qua hình:

Trang 37

29

-Hình 1.1 Giao diện của Từ điển Lạc Việt

Tương ứng với mỗi mục từ sẽ có các ví dụ kèm theo khi tra cứu từ trong từđiển Lạc Việt, các mẫu câu ví dụ hướng dẫn trong từ điển Lạc Việt là bản dịch 1 - 1của nhau, vì vậy, các mẫu câu đó là một nguồn dữ liệu chuẩn để xây dựng kho dữliệu song ngữ Anh – Việt của chúng ta

Nguồn từ điển Lạc Việt được sử dụng để xây dựng kho dữ liệu song ngữ Anh– Việt được thực hiện qua các bước sau:

- Trích nội dung của các cặp câu ví dụ ứng với mỗi mục từ;

- Tạo cặp kho các cặp câu song ngữ lưu ở tập tin Doc;

- Xử lý tạo chỉ mục để đưa vào kho

2.3.4.2 Nguồn Báo điện tử VOV News

Kho ngữ liệu song song là một nguồn tài nguyên có giá trị cho nhiều lĩnh vựcđặc biệt trong lĩnh vực ngôn ngữ học Tuy nhiên các nguồn văn bản song song hiện

Trang 38

30

-nay rất hạn chế Mặt khác, trên mạng Internet có hàng tỷ trang web, một số trong

đó là bản dịch của nhau Web là một nguồn dữ liệu tuyệt vời để xây dựng kho ngữliệu song song, ít nhất là đối với một số cặp ngôn ngữ Tuy nhiên, các thủ tục đểđịnh vị các văn bản song song trên Web không đơn giản với nhiều lý do sau:Lượng dữ liệu quá lớn, việc tự động dò tìm các trang web chứa tài liệu songngữ là không dễ dàng Ngay khi đã có được trang web song ngữ, việc xác địnhnhững trang nào là dịch của nhau cũng không đơn giản do nó đòi hỏi nhiều tàinguyên về ngôn ngữ trong khi những tài nguyên hỗ trợ tiếng Việt còn rất hạn chế.Một khó khăn nữa là chất lượng tài liệu dịch trên internet Do không được kiểmsoát, chất lượng dịch của tài liệu trên internet là rất khác nhau, và không phải tàiliệu nào cũng được dịch chuẩn Hơn nữa, có nhiều tài liệu (ví dụ tài liệu tin tứcsong ngữ Anh - Việt) cùng viết về một vấn đề (tin tức), những lại dùng ngôn từkhác nhau, tổ chức ý khác nhau và thậm chí đưa ra những dẫn chứng khác nhaulàm cho việc phát hiện những tài liệu song ngữ thực sự với chất lượng dịch tốtcàng trở nên khó khăn hơn

Các website song ngữ thường đặt tên tương tự nhau, chủ website song ngữđặt như vậy để giữ lại dấu vết của những trang web theo ngôn ngữ của họ Nhữngtên trang web luôn gồm có một chuỗi con chung chỉ ra tính song song song củanhững trang web, cùng đi với một chuỗi con khác được sử dụng như là cờ ngônngữ chỉ ra ngôn ngữ của mỗi tài liệu cụ thể [23] Ví dụ, một trang web tiếng Việt cótên là “vovnews.vn” thì bản dịch tiếng Anh của nó là “english.vovnews.vn” hoặc

“acas.org/treatment/engmap.html” và “acas.org/treatment/vietmap.html” hoặc

“vietnamtourism.com/e_pages/news/index.asp” Như vậy những cờ ngôn ngữthường nối vào đằng trước, ở giữa và cuối của chuỗi con chung của cặp tài liệusong ngữ Hơn nữa, những cờ ngôn ngữ thường được nối tới phần chung bằng các

ký tự gạch ngang ‘-’ hoặc gạch dưới ‘_’, ví dụ như “v_pages” và “e_pages”[23]

Để xác định được một trang web là trang web song ngữ thì ở trang ngôn ngữchính (trang cha) thường có liên kết với các phiên bản ngôn ngữ khác, ví dụ

Trang 39

31

-Hình 2.1 Ví dụ về trang web ngôn ngữ chính

Hình 2.2 Ví dụ về trang web có phiên bản ngôn ngữ khác

Trong khuôn khổ luận văn này tôi chọn báo điện tử VOVNews làm nguồn dữliệu để đưa vào kho dữ liệu song ngữ Anh – Việt cần xây dựng

VOVNews là Báo Điện tử của Đài Tiếng nói Việt Nam – Hoà mạng từ

www.vov.vn VOVnews là một trong những báo điện tử đầu tiên hoạt động mạnh

mẽ và bền bỉ đến ngày nay trên cả nước VOVNews cũng là một trong những trangweb có những bài viết song ngữ Anh - Việt là bản dịch của nhau, tuy nhiên số bàiviết là bản dịch của nhau là không nhiều Và một nhược điểm chung của trang websong ngữ đó là chỉ dịch ý, không phải là bản dịch 1-1

Với nguồn dữ liệu song ngữ này các bước cần thực hiện bao gồm:

- Tìm kiếm, xác định một cặp trang có là bản dịch của nhau không;

- Tải các cặp trang web về từ URL;

- Xử lý dữ liệu trích lấy nội dung;

- Tách câu;

- Xử lý để đưa vào kho

2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn

Trang 40

32

-Ngữ liệu huấn luyện là kho ngữ liệu được xây dựng sẵn, các kho ngữ liệu này

có thể là đơn ngữ và cũng có thể là song ngữ và từ nhiều ngôn ngữ khác nhau, cáckho ngữ liệu được xây dựng sẵn không không nhiều Hiện nay chưa có một khongữ liệu huấn luyện song ngữ Anh - Việt nào được công bố chính thức và chophép cộng đồng nghiên cứu liên quan đến có thể chia sẽ sử dụng cho các mục tiêunghiên cứu

Trên thế giới có rất nhiều kho ngữ liệu song ngữ hoặc đơn ngữ chia sẻ miễnphí cho cộng đồng nghiên cứu Ví dụ như : kho ngữ liệu song ngữ song songđược xây dựng từ sự hỗ trợ của dự án EuroMatrix, ngữ liệu tiếng AnhSUSANNE là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhàngôn ngữ học - máy tính, kho ngữ liệu Anh – Pháp Canadian Hansard,…

Sử dụng kho ngữ liệu huấn luyện để xây dựng kho ngữ liệu song ngữ Anh - Việt cần phải thông qua một hệ thống dịch tự động để dịch từ ngôn ngữ này sang ngôn ngữ kia

Hình 3.1 Sơ đồ dịch câu tiếng Anh sang tiếng Việt

Các bước để có được nguồn dữ liệu song ngữ như sau:

- Tìm kiếm các kho ngữ liệu có sẵn;

- Xoá bỏ các tags của XML hoặc dòng trống (nếu có);

Kiểm tra lại nội dung

dịch

Ngày đăng: 18/04/2019, 02:09

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] TS. Đinh Điền (2006), Giáo trình xử lý ngôn ngữ tự nhiên, Nhà xuất bản Đại học quốc gia TP.HCM Sách, tạp chí
Tiêu đề: Giáo trình xử lý ngôn ngữ tự nhiên
Tác giả: TS. Đinh Điền
Nhà XB: Nhà xuất bản Đạihọc quốc gia TP.HCM
Năm: 2006
[2] Nguyễn Chí Hiếu, Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy, Đại học Công nghiệp TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy
[3] Hoàng Đức Hải (2006), XML Nền Tảng &amp; Ứng Dụng, Nhà xuất bản Lao động Xã hội Sách, tạp chí
Tiêu đề: XML Nền Tảng & Ứng Dụng
Tác giả: Hoàng Đức Hải
Nhà XB: Nhà xuất bản Laođộng Xã hội
Năm: 2006
[4] Phan Huy Khánh (2005), “Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích xử lý văn bản”, Tạp chí Khoa học &amp; Công nghệ - ĐHĐN, số 10, tr 47 - 53 Sách, tạp chí
Tiêu đề: Sử dụng công cụ lập trình macro VBA xây dựngcác tiện ích xử lý văn bản”, "Tạp chí Khoa học & Công nghệ - ĐHĐN
Tác giả: Phan Huy Khánh
Năm: 2005
[5] Võ Trung Hùng, Phan Huy Khánh (2002), “Xây dựng cơ sở dữ liệu đa ngữ ngữ pháp tiếng Việt”, Tạp chí Khoa học và Công nghệ các trường Kỹ thuật, số 34 – 35, tr. 19 – 23 Sách, tạp chí
Tiêu đề: Xây dựng cơ sở dữ liệu đa ngữngữ pháp tiếng Việt”, "Tạp chí Khoa học và Công nghệ các trường Kỹthuật
Tác giả: Võ Trung Hùng, Phan Huy Khánh
Năm: 2002
[6] Detmoungkhou Saly (2005), Xây dựng từ điển tin học Lào – Anh – Việt, Luận văn Thạc sỹ Khoa học ngành CNTT, Đại học Đà Nẵng.Tiếng Anh Sách, tạp chí
Tiêu đề: Xây dựng từ điển tin học Lào – Anh – Việt
Tác giả: Detmoungkhou Saly
Năm: 2005
[7] Chen, S. F. (1993), "Aligning Sentences in Bilingual Corpora Using Lexical Information," In Proceedings of the 31s tAnnual Meeting of Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Aligning Sentences in Bilingual Corpora Using LexicalInformation
Tác giả: Chen, S. F
Năm: 1993
[8] Dinh Dien, Hoang Kiem(2004) “Building an Annotated Parallel Corpus of English – Vietnamses”, In the Proc of International Conference on Natural Language Process, ICON’04, India Sách, tạp chí
Tiêu đề: Building an Annotated Parallel Corpus ofEnglish – Vietnamses”, "In the Proc of International Conference onNatural Language Process
[9] Jisong Chen, Rowena Chau, Chung-Hsing Yeh (2004) “Discovering Parallel Text from the World Wide Web”, ACSW Frontiers 2004,pp. 157-161 Sách, tạp chí
Tiêu đề: Discovering ParallelText from the World Wide Web”, "ACSW Frontiers 2004
[10] Resnik and N. A. Smith, (2003) “The Web as a Parallel Corpus,”Computational Linguistics, 29(3),pp. 349–380 Sách, tạp chí
Tiêu đề: The Web as a Parallel Corpus,”"Computational Linguistics
[12] William A Gale and Kenneth W Church, (1991), "A Program for Aligning Sentences in Bilingual Corpora", Computational Linguistics.Trang web Sách, tạp chí
Tiêu đề: A Program for AligningSentences in Bilingual Corpora
Tác giả: William A Gale and Kenneth W Church
Năm: 1991
[13] Anthony McEnery, Richard Xiao, Yukio Tono, “Corpora Survey”http://cw.routledge.com/textbooks/0415286239/resources/corpa3.htm,ngày truy cập 16/02/2011 Sách, tạp chí
Tiêu đề: Corpora Survey
[14] British National Corpus , “ What is the BNC?”, http://www.natcorp.ox.ac.uk/, ngày truy cập 15/12/2010 Sách, tạp chí
Tiêu đề: What is the BNC
[15] British National Corpus , “ About the British National Corpus”, http://www.gloriacappelli.it/wp-content/uploads/2007/05/bnc.pdf, ngày truy cập 15/12/2010 Sách, tạp chí
Tiêu đề: About the British National Corpus
[17] Glottopedia, “Parallel corpus”, http://www.glottopedia.de/index.php/-Parallel_corpus, ngày truy cập 20/01/2011 Sách, tạp chí
Tiêu đề: Parallel corpus
[18] Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh (2008), Báo cáokỹ thuật đề tài nhánh SP.74,http://www.jaist.ac.jp/~bao/VLSPtext-/March2008/SP7.4_Baocaokythuat2008thang3.pdf, ngày truy cập 05/02/2011 Sách, tạp chí
Tiêu đề: Báo cáo"kỹ thuật đề tài nhánh SP.74
Tác giả: Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh
Năm: 2008
[19] Hoàng Trọng Phiến , Mai Ngọc Chừ, Vũ Đức Nghiệu (1997), “Khái niệm từ vựng học”,http://ngonngu.net/index.php?p=212, ngày truy cập 11/06/2011 Sách, tạp chí
Tiêu đề: Khái niệm từvựng học
Tác giả: Hoàng Trọng Phiến , Mai Ngọc Chừ, Vũ Đức Nghiệu
Năm: 1997
[20] Ippei Ukai (2008), “Error Analysis of the English-Japanese. Statistical Machine Translation System”, BSc in Computational Linguistics Sách, tạp chí
Tiêu đề: Error Analysis of the English-Japanese. StatisticalMachine Translation System
Tác giả: Ippei Ukai
Năm: 2008
[16] European Parliament Proceedings Parallel Corpus 1996-2009 , http://www.statmt.org/europarl/, ngày truy cập 05/04/2011 Link
[28] Youalign, Terminotix Inc, http://youalign.com/Default.aspx, ngày 05/04/2011 Link

TỪ KHÓA LIÊN QUAN

w