Khối Châu Âu

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 28 - 29)

Một trong nhữngbộ ngữ liệusong ngữ được tham chiếu rộng rãi nhất trong nghiên cứu ngôn ngữ học tính toán là bộ ngữ liệu Canada Hansard. Hansard Canada là tập hợp các ghi chép của các cuộc tranh luận tại quốc hội Canada. Các bản ghi chép đó được ghi lại bằng hai ngôn ngữtiếng Anh và Tiếng Pháp. Hiện tại có nhiều phiên bản của Hansard Canada được phát triển độc lập. Phiên bản của Đại học Nam California [2] – gồm các bản ghi chép tại Quốc hội Canada lần thứ 36 từ năm 1997 đến năm 2000. Phiên bản này có khoảng 2 triệu từ bằng tiếng Anh và Tiếng Pháp. Một phiên bản khác được phát triển bởi Linguistic Data Consortium gồm các ghi chép từ khoảng giữa năm 1979 đến năm 1988; nó chứa khoảng hơn 2,87 triệu cặp câu song ngữ.

Bộ ngữ liệu Europarl (Quốc hội Châu Âu Kỷ yếu) [3] là tập hợp các thủ tục tố tụng từ Nghị viện châu Âu. Các thủ tục tố tụng được sưu tập từ năm 1996 đến năm 2006.Trong đó có tới mười một loại ngôn ngữ là: Pháp, Ý, Tây Ban Nha, Bồ Đào Nha, Anh, Hà Lan, Đức, Đan Mạch, Thụy Điển, Hy Lạp và Phần Lan. Bộ ngữ liệu này bao gồm khoảng hơn 44 triệu từ mỗi ngôn ngữ.

Bộ ngữ liệutiếng Anh – Na Uy [4] bao gồm bản gốc bằng cảtiếng Anh, Na Uy và bản dịch tương ứng. Kho lấy dữ liệu từ các đầu sách tiểu thuyết và phi tiểu thuyết; có tầm 100 đầu sách gốc và bản dịch song song. Tổng số từ là gần 2,6 triệu. Họ đã thu thập được trong giai đoạn từ năm 1994 đến năm 1997.

Bộ ngữ liệutiếng Anh – Thụy Điển [5] rất giống vớibộ ngữ liệutiếng Anh – Na Uy. Bộ ngữ liệu này có 64 văn bản làtiếng Anh và bản dịch là tiếng Thụy Điển. Ngoài ra, nó còn có 72 văn bản tiếng Thụy Điển và bản dịch bằng tiếng Anh. Tập dữ liệu bao gồm cả tiểu thuyết và các tác phẩm phi tiểu thuyết. Tổng số từ trong ngữ liệu là 2,8 triệu từ. Dự án được thực hiện trong giai đoạn từ năm 1997 tới năm 2001.

Bộ ngữ liệu Hunglish [6] bao gồm các văn bản tiếng Hungary và tiếng Anh thu thập từ các bài giảng, từ sách văn bản tôn giáo, văn bản pháp luật, tài liệu thuộc lĩnh vực công nghệ, phụ đề phim, tạp chí và tin tức. Bộ ngữ liệu bao gồm khoảng 54,2 triệu từ 2,07 triệu câu.

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 28 - 29)