Từ nhu cầu cấp thiết phải xây dựng một bộ ngữ liệu song ngữ lớn và có tính chính xác cao của các hệ thống dịch máy hiện nay, đã dẫn đến nhiều dự án quy mô lớn được triển khai trên thế giới cho nhiều loại ngôn ngữ khác nhau.
3.1.1. Khối Châu Âu
Một trong nhữngbộ ngữ liệusong ngữ được tham chiếu rộng rãi nhất trong nghiên cứu ngôn ngữ học tính tốn là bộ ngữ liệu Canada Hansard. Hansard Canada là tập hợp các ghi chép của các cuộc tranh luận tại quốc hội Canada. Các bản ghi chép đó được ghi lại bằng hai ngôn ngữtiếng Anh và Tiếng Pháp. Hiện tại có nhiều phiên bản của Hansard Canada được phát triển độc lập. Phiên bản của Đại học Nam California [2] – gồm các bản ghi chép tại Quốc hội Canada lần thứ 36 từ năm 1997 đến năm 2000. Phiên bản này có khoảng 2 triệu từ bằng tiếng Anh và Tiếng Pháp. Một phiên bản khác được phát triển bởi Linguistic Data Consortium gồm các ghi chép từ khoảng giữa năm 1979 đến năm 1988; nó chứa khoảng hơn 2,87 triệu cặp câu song ngữ.
Bộ ngữ liệu Europarl (Quốc hội Châu Âu Kỷ yếu) [3] là tập hợp các thủ tục tố tụng từ Nghị viện châu Âu. Các thủ tục tố tụng được sưu tập từ năm 1996 đến năm 2006.Trong đó có tới mười một loại ngôn ngữ là: Pháp, Ý, Tây Ban Nha, Bồ Đào Nha, Anh, Hà Lan, Đức, Đan Mạch, Thụy Điển, Hy Lạp và Phần Lan. Bộ ngữ liệu này bao gồm khoảng hơn 44 triệu từ mỗi ngôn ngữ.
Bộ ngữ liệutiếng Anh – Na Uy [4] bao gồm bản gốc bằng cảtiếng Anh, Na Uy và bản dịch tương ứng. Kho lấy dữ liệu từ các đầu sách tiểu thuyết và phi tiểu thuyết; có tầm 100 đầu sách gốc và bản dịch song song. Tổng số từ là gần 2,6 triệu. Họ đã thu thập được trong giai đoạn từ năm 1994 đến năm 1997.
Bộ ngữ liệutiếng Anh – Thụy Điển [5] rất giống vớibộ ngữ liệutiếng Anh – Na Uy. Bộ ngữ liệu này có 64 văn bản làtiếng Anh và bản dịch là tiếng Thụy Điển. Ngồi ra, nó cịn có 72 văn bản tiếng Thụy Điển và bản dịch bằng tiếng Anh. Tập dữ liệu bao gồm cả tiểu thuyết và các tác phẩm phi tiểu thuyết. Tổng số từ trong ngữ liệu là 2,8
Bộ ngữ liệu Hunglish [6] bao gồm các văn bản tiếng Hungary và tiếng Anh thu thập từ các bài giảng, từ sách văn bản tôn giáo, văn bản pháp luật, tài liệu thuộc lĩnh vực công nghệ, phụ đề phim, tạp chí và tin tức. Bộ ngữ liệu bao gồm khoảng 54,2 triệu từ 2,07 triệu câu.
3.1.2. Khối Đông Nam Á
Tập văn bản song ngữ Hồng Kông [7], được xây dựng bởi Linguistic Data Consortium, là sự kết hợp của ba bộ ngữ liệu khác nhau. Ba hệ thống đó là: Hồng Kông Hansards, Hồng Kông Law và Hồng Kông News. Hồng Kông Hansards là tập các thủ tục tố tụng của Hội đồng lập pháp ở Hồng Kông. Bộ ngữ liệu này chứa các bản ghi từ tháng 10 năm 1995 đến tháng 4, năm 2003. Gồm 714 tập tài liệu bằng cảtiếng Anh và Trung Quốc; có tổng cộng 36 triệu từ tiếng Anh và 56 triệu từ Trung Quốc. Hồng Kông Luật gồm tập các luật được ban hành bởi Sở Tư pháp của Hồng Kơng đến năm 2000; có tổng cộng 8 triệu từ tiếng Anh và 14 triệu từ Trung Quốc trong 42,255 tài liệu. Hồng Kông Newsgồm các ấn phẩm được lưu hành bởi chính phủ Hồng Kơng. Các án phẩm báo chí được lưu trữ từ tháng bảy năm 1997 đến tháng mười năm 2003. Hồng Kơng News có tổng cộng 59 triệu từ tiếng Anh và 98 triệu từ Trung Quốc trong 87.590 tài liệu.
Bộ ngữ liệuASAHI tập hợp các bài viết từ tờ báo Asahi Shimbun của Nhật Bản. Báo Asahi Shimbun là một trong những tờ báo lâu đời nhất của Nhật Bản, và được xuất bản trong cả hai phiên bản tiếng Nhật và tiếng Anh. Ngữ liệu gồm 472 bài viết bằng tiếng Nhật và bản dịch song song của nó từ năm 1989 tới năm 1991.
Bộ ngữ liệu Anh – Việt bao gồm các bản dịch từ sách công nghệ thông tin, từ vựng Longmantrích trong từ điển tiếng Anh hiện đại (phiên bản Tiếng Việt của Trần Tất Thắng), từ điển song ngữ Anh-Việt, bản dịch của bộ ngữ liệu SUSANNE, sách điện tử, bách khoa toàn thư cho trẻ em, và các cuốn sách khác. Nó có tổng cộng 5 triệu từ tiếng Việt và tiếng Anh. Câu được liên kết bằng tay nếu văn bản gốc ở dạng bản in đánh máy, đồng thời dùng thuật toánGale và Churchđể gióng hàng câu tự động nếu nguồn có định dạng điện tử.
Thư viện ngôn ngữ Đông Nam Á (SEALang) [8]là tập dữ liệu song ngữ gồm tiếng Thái – tiếng Anh và tiếng Khmer – tiếng Anh. Song ngữ Thái – Anh được thu thập từ 3 dự án nghiên cứu:Wanakam World Classics [9], Thái Fiction in Translation [10], và Bangkok Post [11]. Tập song ngữ Khmer – Anh được biên soạn bằng cách trích xuất các câu ví dụ của từ điển Headley Campuchia –tiếng Anh.
Asia Online [12] là một công ty tư nhân tại Bangkok, Thái Lan. Hoạt động kinh doanh liên quan đến phát triển phần mềm và cung cấp dịch vụ trong các lĩnh vực dịch máy, cổng thơng tin điện tử và tìm kiếm. Hệ thống dịch máy của họ sử dụng ngữ liệu song ngữgióng hàng tự động bằng cách dung mơ hình n-gram và sau đó kiểm tra bằng tay.
Ngược lại với bộ ngữ liệu châu Âu, hầu hết các bộ ngữ liệu song ngữ châu Á được liên kết bằng tay. Mặc dù nhiều nghiên cứu đã được thực hiện đối với tiếng Trung Quốc, Nhật Bản và Hàn Quốc, nhưng lại có rất ít cơng trình cho các ngơn ngữ Đông Nam Á, cụ thể là Tiếng Việt.