Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời. Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin về kỹ thuật nhanh và chính xác trở nên cần thiết. Đa số các tài liệu kỹ thuật đều được viết bằng tiếng Anh. Chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, con người nghĩ ngay đến việc sử dụng “não bộ của máy tính” cho những ứng dụng thực tiễn, trong đó có vấn đề dịch máy. Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D. Booth và Warren Weaver vào năm 1946. Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth đã cho ra mắt “hệ dịch dựa trên từ điển” đầu tiên tại hội nghị của MIT vào năm 1952. 16 17 18. Trôi chảy với thời gian, trong sự phát triển nhanh chóng của mạng máy tính và công nghệ truyền thông, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức rất phong phú ở nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, .v.v.), được thể hiện ở nhiều ngôn ngữ khác nhau. Nhu cầu đọc hiểu và trao đổi thông tin trở nên cần thiết hơn bao giờ, thế nhưng, nhu cầu này đã gặp phải một rào cản sự khác biệt về mặt ngôn ngữ. Và, ngôn ngữ, tự thân nó đã vốn rất phức tạp.
-1- LỜI NÓI ĐẦU Chế tạo loại máy có khả dịch tự động để giúp cho người vượt qua rào cản ngôn ngữ mơ ước loài người có từ kỷ XVII, lâu trước máy tính điện tử đời Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin kỹ thuật nhanh xác trở nên cần thiết Đa số tài liệu kỹ thuật viết tiếng Anh Chẳng sau máy tính điện tử đời, bên cạnh ứng dụng tính toán lĩnh vực toán học vật lý, người nghĩ đến việc sử dụng “não máy tính” cho ứng dụng thực tiễn, có vấn đề dịch máy Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn từ ngôn ngữ sang ngôn ngữ khác đề cập đến thảo luận Andrew D Booth Warren Weaver vào năm 1946 Vượt qua nhiều trở ngại lý thuyết công nghệ, Booth cho mắt “hệ dịch dựa từ điển” hội nghị MIT vào năm 1952 [16] [17] [18] Trôi chảy với thời gian, phát triển nhanh chóng mạng máy tính công nghệ truyền thông, người ngày có điều kiện tiếp xúc với nguồn tri thức phong phú nhiều dạng khác (chữ viết, hình ảnh, âm thanh, v.v.), thể nhiều ngôn ngữ khác Nhu cầu đọc hiểu trao đổi thông tin trở nên cần thiết bao giờ, nhưng, nhu cầu gặp phải rào cản - khác biệt mặt ngôn ngữ Và, ngôn ngữ, tự thân vốn phức tạp Con người tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác nhau, từ việc xây dựng từ điển song ngữ, nghiên cứu dịch thuật liên ngữ, phương pháp học ngoại ngữ nhanh chóng, việc tạo ngôn ngữ chung cho loài người - quốc tế ngữ Esperanto Vào thời điểm sức mạnh máy tính khẳng định, toán sử dụng máy tính để chuyển -2- đổi tri thức viết ngôn ngữ sang ngôn ngữ khác đặt Trong khoảng 50 năm, có nhiều phương pháp dịch máy giới thiệu triển khai Hiện nay, có nhiều hệ dịch tự động thương mại hóa dạng chương trình máy tính dịch vụ web Sự nhìn nhận vấn đề dịch máy (Machine Translation) nhiều lần thay đổi năm mươi năm qua, từ chỗ hình dung dịch thuật công việc đơn giản, máy dịch loại văn không người, máy vạn năng, chỗ khẳng định dịch máy tự động, chất lượng cao hoàn toàn không khả thi Ngày hôm nay, hầu hết chuyên gia dịch máy có chung quan điểm máy tính biên dịch văn chất lượng chấp nhận lĩnh vực chuyên môn hẹp, hỗ trợ dịch thô để đọc hiểu Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu Dịch máy dựa Thống kê (Statistical Machine Translation) hay Dịch máy dựa mẫu ví dụ (Example-based Machine Translation) xem có ích để dịch với chất lượng tương đối thấp cho loại văn [16] [17] [18] Nguyên nhân có lẽ khác biệt lớn hai giới: người máy Ngoài ra, không kể đến tính nhập nhằng - vốn chất ngôn ngữ tự nhiên Ngôn ngữ tự nhiên thực thể phức tạp Kết xuất ứng dụng dịch máy (câu đích) thường không diễn đạt trôi chảy lời nói, câu viết giới thực, tệ hơn, hình thức phi lý, trái ngược hẳn với trực cảm người Đối với tiếng Việt, vấn đề xây dựng hệ dịch máy để tự động dịch từ tiếng Anh sang tiếng Việt đặt từ lâu Điều kiện tiên việc xây dựng chương trình dịch việc xây dựng sở tri thức ngôn ngữ cho hệ dịch Chất lượng dịch phụ thuộc vào việc cập nhật liệu cho sở tri -3- thức, mà công việc đòi hỏi đầu tư lớn thời gian thực công việc lâu dài Ngày hôm nay, chương trình ứng dụng thực tế biết đến nhiều chương trình dịch tự động Anh-Việt EVTran 3.0 TS Lê Khánh Hùng, có số chương trình khác thử nghiệm phạm vi hẹp chưa đưa thị trường Với mong muốn học hỏi, mạnh dạn chọn đề tài “Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không” cho luận văn Kết xuất luận văn thử nghiệm dịch tự động dựa việc rút trích tri thức (ngữ nghĩa) từ ấn phẩm từ điển hàng áp dụng kỹ thuật học máy Mặc dầu kết xuất chưa tối ưu, miền xác định (tài liệu hàng không), trình xây dựng sở liệu tri thức (dựa vào máy học) có tham gia từ phía người dùng cuối (CB-CNV ngành hàng không, nắm vững kiến thức hàng không), tiền đề cho nghiên cứu sau góp phần phục vụ cho cộng đồng Luận văn trình bày chương, khái quát sau: Chương 1: Tổng quan dịch máy Trình bày định nghĩa, vai trò, phân loại lịch sử dịch máy Chương 2: Các phương pháp dịch máy Khái quát lý thuyết ngôn ngữ học áp dụng dịch máy Giới thiệu tổng quan toán dịch tự động phương pháp giải toán năm qua Trong đưa số đánh giá ưu điểm nhược điểm hướng tiếp cận Chương 3: Từ điển hàng không Một cách hình thức, ví liệu từ điển thành phần xương sống thử nghiệm dịch máy áp dụng tài liệu hàng không Trong chương này, trình bày chi tiết chức năng, cách thức -4- hoạt động, kỹ thuật sử dụng để tạo nên phần mềm từ điển thử nghiệm dịch tự động Chương 4: Cài đặt chương trình thử nghiệm đánh giá Sau lý thuyết thực nghiệm; với mong muốn áp dụng kiến thức học vào thực tế, chương trình bày kết thu từ liệu thực Do miền xác định luận văn: “Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không”, nên liệu trích xuất web site ngành hàng không (ICAO, Boeing Airbus) Chương 5: Phần kết luận Tổng kết kết đạt nêu hướng phát triển luận văn -5- CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY I) Định nghĩa dịch máy Khái niệm dịch máy nhiều tác giả lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, có vài điểm khác biệt nhưng, hầu hết tương đương với định nghĩa sau: Một hệ dịch máy (Machine Translation System) hệ thống sử dụng máy tính để chuyển đổi văn viết ngôn ngữ tự nhiên thành dịch tương đương ngôn ngữ khác [5] [6] Khái niệm “biên dịch”, hay “phiên dịch” hay đơn giản, “dịch”, thường không định nghĩa chặt chẽ Chúng chưa tìm thấy đâu có định nghĩa toán học khái niệm Ngôn ngữ văn cần dịch gọi ngôn ngữ nguồn, ngôn ngữ dịch gọi ngôn ngữ đích Sơ đồ sau thể vị trí hệ dịch máy tiến trình dịch tài liệu Cơ sở tri thức Văn nguồn Văn phân tích Dịch máy Kết dịch máy Dịch máy Con người Văn đích Hiệu đính -6- Hình 1.1: Quá trình xử lý tài liệu dịch máy Đầu vào hệ dịch máy thường văn viết ngôn ngữ nguồn, trinh dịch chia thành hai giai đoạn, đầu tiên, văn phân tích thành thành phần, sau dịch thành văn dạng ngôn ngữ đích Kết dịch người hiệu đính để trở thành dịch tốt Như trình dịch, người tác động vào bước xử lý với mục đích làm cho kết dịch tốt II) Vai trò dịch máy Xa xưa, người có mơ ước “thực thể” giúp người hiểu thứ tiếng khác Ngày nay, nhu cầu trao đổi thông tin quốc gia, văn hóa, người, v.v làm cho việc dịch trở nên quan trọng Để giải vấn đề dịch thuật, đội ngũ người phiên dịch, dịch giả hình thành trì - để chuyển lời nói, văn từ ngôn ngữ sang ngôn ngữ khác Công việc dịch sử dụng người công việc có tính thủ công, chất lượng cao suất thấp giá thành cao Mỗi cách dịch – cách dịch dùng người dịch dịch máy – có vai trò riêng Dịch máy chứng tỏ có hiệu so với chi phí bỏ (rẻ đáng kể) cần dịch khối lượng lớn và/hoặc dịch nhanh tài liệu chuyên môn (kỹ thuật), nhiều tình khác (có nhiều từ lặp lặp lại) Trái lại, cần dịch văn nhiều từ lặp lại sử dụng ngôn ngữ tinh vi phức tạp (ví dụ văn học luật), chí cần dịch văn với chủ đề đặc biệt, thay người dịch [1] Dịch máy phục vụ việc tìm kiếm dịch từ cung cấp dịch thô tóm tắt gốc (đôi gọi -7- “những ý chính”) Nói chung, chỗ đứng dịch máy bước khởi đầu trình dịch, phương tiện để tiến tới mục đích thân khó sản phẩm cuối Dịch với trợ giúp máy tính tiến lớn thời gian gần qua trình phối hợp máy dịch người dịch Phần lớn người dịch sử dụng công cụ tham chiếu từ điển từ điển đồng nghĩa mạng Dịch với trợ giúp máy tính tiến xa hơn, cách kết hợp dùng phần mềm có khả ví dụ tự động ghi lưu lại số cấu trúc ngữ pháp cách xếp từ định (công cụ đặc biệt hữu dụng để đảm bảo quán dịch thuật ngữ chuyên môn) ngôn ngữ gốc ngôn ngữ dịch, gợi ý cho người dịch họ gặp lại từ hay cấu trúc ngữ pháp văn [1] Tóm lại, với phát triển mạnh mẽ khoa học công nghệ, khối lượng thông tin trao đổi người ngày nhiều Trong nhiều trường hợp có, người không cần đến chất lượng dịch cao sử dụng người phiên dịch mà cần có dịch nháp có chất lượng không thấp chờ đợi lâu Với trường hợp cụ thể này, hệ dịch máy chất lượng bình thường đáp ứng tốt người phiên dịch giỏi Do vậy, nhu cầu cần có hệ dịch máy tất yếu Nếu xây dựng hệ dịch máy thành công, công cụ giúp người tiếp cận với kho tri thức viết ngôn ngữ khác III) Lịch sử dịch máy Ngành dịch máy có trình phát triển 50 năm, có giai đoạn không phát triển dịch máy chuyên ngành phát triển khoa học máy tính với nhiều kết lý thuyết ứng dụng thực tế Có thể chia phát triển ngành dịch máy thành ba thời kỳ, kể từ năm 1949 với ý tưởng sơ khai hệ dịch máy cho -8- đến (2006) với đời nhiều trình dịch máy tương đối hoàn thiện, có ứng dụng vào sống 1) Giai đoạn 1930 - 1940 Mơ ước việc hiểu ngôn ngữ dân tộc khác người có từ lâu, từ kỷ 17 nhiều nhà nghiên cứu có nỗ lực việc xây dựng cách biểu diễn chung cho tất ngôn ngữ Năm 1933, có hai phát minh cấp sáng chế liên quan đến việc xây dựng thiết bị dịch ngôn ngữ George Artsrouni người Pháp gốc Armenia thiết kế thiết bị lưu trữ tìm kiếm nhanh chóng cặp từ - giải nghĩa hai cặp ngôn ngữ Cũng năm đó, người Nga tên Petr Smirnov-Troyanskii thiết kế thiết bị dịch máy gồm công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ sinh câu đích Thiết kế Troyanskii chưa trở thành thực ý tưởng cho nhiều loại máy dịch thiết kế sau 2) Giai đoạn 1940 - 1970: Vào cuối năm 1940, máy tính phát minh ứng dụng thành công vào việc giải mật mã, nhiều người nghĩ đến khả ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ ngôn ngữ sang tiếng Anh tương tự việc giải mã văn tiếng Anh viết loại mật mã Khái niệm dịch máy (machine translation) Warren Weaver đề vào năm 1949 Những chương trình dịch tự động đơn giản sử dụng phương pháp dịch từ sang từ (word-for-word translation) cho kết giới hạn từ ngữ có nghĩa khác ngữ cảnh khác Năm 1954, công ty IBM trường đại học tổng hợp Georgetown hợp tác xây dựng chương trình dịch tự động Nga-Anh kết hạn chế Với khả giới hạn máy tính năm 1950-1960 việc nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên chập -9- chững, kết thu lĩnh vực dịch tự động thời kỳ không đạt kết khả quan Trong báo cáo viết năm 1960, Bar-Hillel cho hệ thống dịch tự động dịch cách trọn vẹn kiến thức giới xung quanh thông tin ngữ cảnh Ví dụ mà Bar-Hillel đưa câu tiếng Anh “The pen is in the box and the box is in the pen” khẳng định hệ dịch dựa vào từ điển mà phân biệt nghĩa từ “pen” thứ (có nghĩa “cái bút”) từ “pen” thứ hai (có nghĩa “cái cũi”) Năm 1966, Mỹ, Hội đồng Cố vấn Xử lý Ngôn ngữ Tự động (Automatic Language Processing Advisory Committee – ALPAC) soạn báo cáo nhận định xây dựng hệ thống dịch tự động có hiệu Lập luận rằng: " việc dịch ngôn ngữ cần kiến thức ngôn ngữ mà phải kiến thức ngôn ngữ (extralinguistic)…" Sau báo cáo này, phủ không trợ cấp cho chương trình nghiên cứu Dịch Máy chương trình chấm dứt Nên giai đoạn biết với tên giai đoạn trước ALPAC (Automatic Language Processing Advisory Committee) Việc nghiên cứu phát triển dịch máy bước vào thời kỳ yên ắng với vài hoạt động cá nhân tổ chức nhỏ bên nước Mỹ Tuy nhiên đầu tư cho dịch máy lĩnh vực quân tiếp tục hệ thống dịch Nga-Anh không lực Mỹ (hệ Mark II, phát triển từ năm 1964) 3) Giai đoạn 1970 -1990 - 10 - Giai đoạn phục hồi dịch máy Vào đầu năm 1970, sau số thành công nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên sức mạnh máy tính tăng lên đáng kể (với đời mạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy Năm 1973, Yorick Wilks giới thiệu hệ thống dịch tự động Anh-Pháp cho kết tốt (một người biết tiếng Pháp đọc hiểu kết dịch không cần tham khảo gốc tiếng Anh) Để đạt thành này, hệ thống Wilks sử dụng tri thức có tính “khái niệm” (concepts) việc dịch thuật Ví dụ: Từ “drink” không đơn động từ “uống”, hệ thống Wilks, từ “drink” gồm khái niệm “động từ có tính hoạt động” (activity verb), “có liên hệ đến chất lỏng”, Những tri thức giúp cho hệ thống Wilks biết mối liên hệ từ câu từ xác định nghĩa xác hơn, phù hợp với ngữ cảnh Thành công Wilks chất xúc tác cho việc phục hồi lại nghiên cứu dịch máy, loại đề án dịch tự động nhiều tổ chức quốc gia triển khai, ví dụ như: • Hai hệ thống Liên Xô cũ, bắt đầu năm 1976, hệ thống AMPAR dịch từ tiếng Anh sang tiếng Nga hệ thống NERPA dịch từ tiếng Đức sang tiếng Nga • Hệ thống TAUM-METEO (1977) đại học Montréal – Canada chuyên dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp • Dự án EUROTRA (1982) Cộng Đồng Châu Âu với mục đích dịch từ ngôn ngữ sang ngôn ngữ khác khối, chương trình hỗ trợ thứ tiếng: Anh, Pháp, Đức, Ý, Hà Lan, Đan Mạch Hy Lạp • Hệ thống METAL (1985) Linguistic Research Center, đại học Texas, dịch từ tiếng Đức sang tiếng Anh - 60 - biến, kiểm tra vấn đề giải pháp tiến trình mở rộng tự Thời gian tính: 0, 578 s ; Số từ: 42 ; Thời gian tính: s ; Số từ: 41 ; Nội dung mẫu thử nghiệm ( lấy địa chỉ: http://www.icao.int/icao/en/nr/2006/pio200614_e.pdf ) ICAO NEWS RELEASE FOR IMMEDIATE RELEASE, PIO 14/06 NEW LIST OF PROHIBITED CARRY-ON ITEMS TO BE ISSUED BY ICAO MONTREAL, 20 September 2006 – A new list of prohibited items that passengers cannot bring on board commercial aircraft will be issued to the 189 Contracting States of the International Civil Aviation Organization by the end of November 2006, the Organization announced today Kết xuất EV Tran 3.0 Kết xuất ứng dụng thử nghiệm Phiên Tin tức ICAO Tổ chức hàng không dân dụng quốc tế (Cho) Phiên Tức thời, PIO 14/ 06 tin phát hành Danh sách Mới Của Cấm tiết Cho phát hành trực tiếp, PIO 14/ 06 mục náo động phát hành Bởi Danh sách cấm ồn khoản xuất ICAO Tổ chức hàng không dân dụng quốc MONTREAL, 20 Tháng chín 2006- Một danh sách việc cấm tiết mục mà hành khách mang bảng thương mại ý định máy bay chảy tới 189 co rút lại tình trạng tổ chức hàng không dân dụng quốc tế vào khoảng cuối Tháng mười 2006, Tổ chức công bố hôm tế (International Civil Aviation Organization) MONTREAL, 20 tháng chín 2006 - danh sách cấm khoản hành khách (là người mua vé chuyến bay, trừ thành viên đội bay, chuyên chở chuyên chở tầu bay theo thỏa thuận với nhà chuyên chở) mang lên tầu tầu bay thương - 61 - mại (tầu bay khai thác sẵn sàng cho thuê) xuất hướng đến 189 quốc gia ký kết Tổ chức hàng không dân dụng quốc tế (một quan Liên hợp quốc có trách nhiệm thúc đẩy phát triển giao thông hàng không dân dụng quốc tế, viết tắt: ICAO) vào khoảng cuối tháng mười 2006, tổ chức đọc giới thiệu tin tức hôm Thời gian tính: 2, 797 s ; Số từ: 56 ; Thời gian tính: s ; Số từ: 62 ; Nội dung mẫu thử nghiệm (lấy địa chỉ: http://www.icao.int/icao/en/nr/2006/pio200614_e.pdf ) Last week, ICAO’s Aviation Security (AVSEC) Panel reviewed an expanded list of prohibited items prepared by the Organization’s Secretariat following the thwarted terrorist plot of August in the United Kingdom In the coming weeks, the Panel will incorporate appropriate national and regional initiatives taken to date to deal with the new threat posed by liquid, gel and aerosol products that may be used in improvised explosive devices Kết xuất EV Tran 3.0 Kết xuất ứng dụng thử nghiệm - 62 - Tuần trước, Bảng An toàn (AVSEC) Hàng không (của) ICAO tổng quan danh sách phát triển Của Cấm tiết mục chuẩn bị Chức thư ký (của) Tổ chức sau Cản trở mảnh đất khủng bố (của) Tháng tám Tuần trước, Ban an toàn - an ninh ICAO tổng quan danh sách nới rộng vật phẩm bị cấm chuẩn bị ban thư ký tổ chức ngăn trở âm mưu khủng bố tháng tám Vương quốc Anh Trong tuần tới, khung kết hợp chặt Vương quốc Anh Trong tuần tới, Bảng hợp sáng kiến quốc gia khu vực thích hợp cầm lấy để giải lời đe dọa đặt chất lỏng, chất gien sản phẩm chất xịt (bình xịt) mà dùng Print ứng thiết bị dễ nổ chẽ thích hợp quốc gia hãng chuyên chở vùng bắt đầu nắm bắt hướng đến giải với mối đe dọa định hình chất lỏng, chất keo đông (hình thành đông đặc dung dịch chuyển động sang pha đặc) sol khí, bụi khí bị phân chia thành hạt cực nhỏ phân tán vào không khí sản phẩm thường dùng làm nhanh dụng cụ chất nổ Thời gian tính: 4,453 s ; Số từ: 67 ; Thời gian tính: s ; Số từ: 68 ; Nội dung mẫu thử nghiệm Là URL: http://home.vnn.vn Kết xuất EV Tran 3.0 http: // nhà.vnn.vn Thời gian tính: 0, 219 s ; Số từ: ; Kết xuất ứng dụng thử nghiệm http://home.vnn.vn Thời gian tính: s ; Số từ: ; - 63 - Nội dung mẫu thử nghiệm “The issuance of a revised list of prohibited items is a complex matter involving law enforcement, explosives technologies, evaluation of trace detection equipment, training of a new list by the end of November 2006, security personnel, logistics and commercial considerations The Panel is working diligently on ways to strengthen and streamline security procedures at airports,” said Roberto Kobeh González, President of the Council of ICAO On 27 and 28 September, the International Explosives Technical Commission of ICAO is expected to follow through on some of the work of the AVSEC Panel in relation to the question of liquids, gels and aerosols that have characteristics that could make them attractive for use in improvised explosive devices The report of both bodies, including their recommendations, will be presented to the Council of ICAO for review during its next session which begins on 10 October Once the recommendations are adopted, ICAO will notify all Member States of various issues related to liquids used as explosives, including: a new list of prohibited items; measures needed to counter the new threat; ongoing work on technologies and operational procedures for detecting prohibited liquids; the need for new measures to be effective, practicable, sustainable and harmonized among States; and, special emphasis on close cooperation with intelligence agencies and aviation regulators A mechanism to rapidly share significant security information on an international basis will be provided Kết xuất EV Tran 3.0 Kết xuất ứng dụng thử nghiệm - 64 - "Sự cấp phát Của Một Xem lại danh sách Của Cấm tiết mục Là vấn đề phức tạp liên quan đến cưỡng luật, công nghệ chất nổ, đánh giá thiết bị dò tìm vệt tin, huấn luyện (của) danh sách vào khoảng cuối Tháng mười 2006, nhân an ninh, logistic xem xét thương mại Bảng làm việc tích cực cách để làm mạnh thêm xếp hợp lý hóa thủ tục an ninh sân bay, " Nói Roberto "phát hành xem lại danh sách cấm khoản phức hệ vấn đề gồm luật có hiệu lực, chất nổ công nghệ, ước lượng dấu vết dò thiết bị, đào tạo, việc huấn luyện danh sách vào khoảng cuối tháng mười 2006, an ninh nhân sự, logistics xem xét khía cạnh thương mại Khung lao động tích cực đường hướng đến trở nên mạnh dòng an ninh qui trình, thủ tục tiến hành, bước tiến hành cảng hàng không (dùng hoạt động hàng không dân - 65 - Kobeh González, Tổng thống (của) Hội dụng, cảng hàng không tổ hợp đồng (của) ICAO công trình bao gồm sân bay, nhà ga trang thiết bị, công trình mặt đất khác Vào 27 28 Tháng chín, người ta hy vọng ủy nhiệm Kỹ thuật chất nổ Quốc tế (của) ICAO theo sau xuyên qua Trên số công việc (của) Bảng AVSEC câu hỏi (của) chất lỏng, chất gien chất xịt (bình xịt) mà có đặc trưng mà làm họ lôi (cho) sử dụng Print ứng thiết bị dễ nổ sử dụng cho tầu bay đến, thực dịch vụ vận chuyển hàng không), " nói Roberto Kobeh Gonzalez, chủ tịch hội đồng Tổ chức hàng không (International dân dụng Civil quốc tế Aviation Organization) Vào 27 28 tháng chín, Uỷ ban kỹ thuật chất nổ toàn cầu thuộc ICAO mong đợi hướng đến theo hành trình suốt số công việc nhóm AVSEC (Aviation Security) mối tương quan hướng đến câu hỏi chất lỏng, chất keo đông (hình thành đông đặc dung dịch chuyển động sang pha đặc) sol khí, bụi khí bị phân chia thành hạt cực nhỏ phân tán vào không khí có riêng đó bình chế tạo chúng hút cho dùng làm nhanh dụng cụ chất nổ Bản báo cáo hai thành phần chính, bao gồm khuyến cáo, khuyến nghị họ, giới thiệu lên hội đồng Tổ chức hàng không dân dụng quốc tế (International Civil Aviation Organization) cho xem xét lại thời gian phiên mà bắt đầu vào 10 - 66 - tháng mười - 67 - Khi mà khuyến cáo, khuyến nghị thông qua, Tổ chức hàng không dân dụng quốc tế (International Civil Aviation Organization) thông báo tất quốc gia thành viên khác vấn đề có liên quan hướng đến chất lỏng thường dùng chất nổ, bao gồm cả: danh sách cấm khoản; đo đạc/biện pháp cần hướng đến chống lại mối đe dọa mới; công việc công nghệ phương thức khai thác cho dò cấm đangchất lỏng; cần cho đo đạc/biện pháp có hiệu quả, khả thi, xác thực hài hoà với Nhà nước; và, đặc biệt nhấn mạnh hợp tác chặt chẽ với quan chuyên trách điều hành hàng không Một chế hướng đến nhanh chóng chia sẻ thông tin an ninh (hàng không) quan trọng tảng quốc tế cung ứng Thời gian tính: 6, 812 s ; Số từ: 109 ; Thời gian tính: 12 s ; Số từ: 228 ; Nội dung mẫu thử nghiệm ( lấy địa chỉ: http://www.boeing.com/ids/news/2006/q4/061009b_nr.html ) - 68 - ST LOUIS, Oct 09, 2006 The Boeing Company [NYSE: BA] has flown its newly designed A/MH-6X light-turbine helicopter for the first time, marking a significant milestone in the continuing development of the versatile manned/unmanned military aircraft Kết xuất EV Tran 3.0 Kết xuất ứng dụng thử nghiệm ST LOUIS, Tháng mười 09, 2006 ST LOUIS, tháng mười 09, 2006 -Boeing Công ty [ NYSE: Three] is có công ty chế tạo tầu bay Boeing [NYSE: Hàng không Anh quốc (British Airways) Căng Nó Mới thiết kế Một / MH-6 X bay họ thiết kế A/MH-6X Máy bay trực thăng tua-bin- nhẹ lightturbine trực thăng (một loại tầu bay nặng không khí có cánh dạng rôto lần đầu, đánh dấu Một cột mốc quan cánh quay, mà trục rôto quay tạo trọng Print Tiếp tục phát triển lực nâng) cho lần đầu tiên, dấu hiệu cột mốc quan trọng tiếp tục manned nhiều tài/ máy bay quân đội phát triển đa tầu bay quân không người điều khiển có người lái/ không người lái Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: s ; Số từ: 37 ; Nội dung mẫu thử nghiệm ( lấy http://www.boeing.com/commercial/news/2006/q4/061009a_nr.html) "Boeing would like to congratulate Emirates SkyCargo on its success," Schulz said "We're confident the 747-8 brings the economics and reliability that will help the company continue to expand its freight-carrying capabilities around the world." Kết xuất EV Tran 3.0 Kết xuất ứng dụng thử nghiệm - 69 - "Boeing muốn chúc mừng Emirates SkyCargo thành công (của) nó, " Schulz nói "Chúng (thì) tin 747-8 mang kinh tế học tin cậy mà giúp đỡ công ty tiếp tục đến "Boeing hân hoan chúc mừng Emirates SkyCargo thành công họ," Schulz nói "chúng ta tin 747-8 hướng kinh tế trị học độ tin cậy giúp đỡ công ty tiếp tục để mở rộng khả mang hướng đến mở rộng khả chuyên chở họ khắp giới." chuyên chở (của) khắp giới." Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: 1, 844 s ; Số từ: 35 ; V) So sánh 1) Với EV-Trans 3.0 (đây phiên EV-Trans, có tên EvShuttle) EV-Trans 3.0 Trình thử nghiệm Tri thức kho ngữ liệu 155.270 từ (trong có 21.740 thuật ngữ thuộc 530.000 từ (EV-Trans lĩnh vực hàng không), phát triển từ năm phát triển từ cuối 1990, đội ngũ 12 tháng 4-2006 người: tiến sỹ, thạc sỹ, kỹ sư, cử nhân) Tính xác xác Hướng thực Dịch chuyển đổi Thời gian thực dịch nhanh xác với từ hàng không Dịch trực tiếp (frasebased) chậm - 70 - Có có Độ lớn đầu vào (dữ liệu khoảng 10 dòng (Win không hạn chế text) Word) Phát âm không có (ở module gettext) Anh - Việt, Việt - Anh Anh - Việt hàng không Là thương phẩm, nhiên tính ứng dụng chưa cao Là trình thử nghiệm, chưa có tính ứng dụng cao Dịch ứng dụng khác Kết xuất dử liệu dạng ảnh (ảnh minh họa cho nghĩa từ) Chiều dịch Tính ứng dụng thực tiễn Cung cấp tính xóa, sửa, thêm (huấn luyện cho máy học) Bảng 4.2: Nội dung mẫu thử nghiệm (so sánh với EV-Trans 3.0) - 71 - 2) Với Lạc Việt từ điển (ở chức tra từ tự động - AutoLook) (so sánh dựa phiên 2002, phiên Lạc Việt từ điển) Lạc Việt từ điển Tri thức kho ngữ liệu thông dụng, tổng quát Tính xác xác Hướng thực không xác định (do Lạc Việt mã nguồn đóng) Tra ứng dụng khác có (trừ file pdf) Độ lớn văn nguồn tra nghĩa từ Trình thử nghiệm từ hàng không xác với từ hàng không Get text Có tra nghĩa cụm từ Phát âm Kết xuất dử liệu dạng ảnh (ảnh minh họa cho nghĩa từ) Có Có Không Có - 72 - Tương tác với người dùng Không Có (khi liệt kê từ xuất nghĩa phím mũi tên, , , , ) Bảng 4.3: So sánh trình thử nghiệm với Lạc Việt từ điển 2002 CHƯƠNG 5: KẾT LUẬN - HƯỚNG PHÁT TRIỂN I) Kết luận Luận văn đặt mục tiêu tìm hiểu, nghiên cứu phương pháp xây dựng hệ dịch máy Được trình bày chương, luận văn đạt kết sau: • Khảo cứu: Tìm hiểu nghiên cứu hệ thống dịch máy mô hình xử lý ngữ nghĩa dịch máy • Trình bày, liên hệ so sánh chiến lược dịch máy khác nhau, từ hướng tiếp cận cổ điển (dịch trực tiếp, dịch chuyển đổi, ) đến hướng tiếp cận (dịch dựa thống kê, dịch dựa mẫu ví dụ, ) • Đưa ứng dụng thử nghiệm dịch máy Trình bày, liên hệ so sánh ưu nhược điểm trình thử nghiệm với sản phẩm thông dụng thị trường Luận văn có hai phần: lý thuyết cài đặt, phần lý thuyết hệ dịch máy chưa sâu, hàm lượng khoa học chưa cao Tính ứng dụng vào thực tiễn phần cài đặt hạn chế Đi theo hướng thực dịch trực tiếp, phần học máy ứng dụng thử nghiệm sơ sài (người sử dụng tương tác với - 73 - chương trình: nhập tay mẫu tốt so với mẫu kết xuất từ chương trình, chương trình cập nhật mẫu tốt kho ngữ liệu) II) Hướng phát triển Để phát triển hoàn thiện mô hình dịch máy, kết luận văn tiếp tục phát triển theo hướng sau: • Bổ sung tối ưu tri thức kho ngữ liệu • Cải tiến thuật toán để thời gian thực nhanh Phát triển trình thử nghiệm chạy trang web (như systransoft.com; babelfish.yahoo.com, v.v.) • Nghiên cứu sâu lý thuyết dịch máy: dựa mẫu ví dụ, dựa thống kê (đây hướng mà nhóm VLSP - Vietnamese language and speech GS Hồ Tú Bảo, Lương Chi Mai) thuộc JAIST, Viện Công nghệ Thông tin nghiên cứu Chú trọng nghiên cứu dịch chuyển đổi • Tìm hiểu kỹ mạng Bayes mô hình Markov ẩn để việc học máy tương tác người dùng cuối – trình thử nghiệm tối ưu • Lập nhóm nghiên cứu, thực thành đề tài nhiệm vụ cấp ngành, đưa ứng dụng vào thực tiễn ... đề tài Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không cho luận văn Kết xuất luận văn thử nghiệm dịch tự động dựa việc rút trích tri thức (ngữ nghĩa) từ ấn phẩm từ điển hàng áp dụng. .. chương trình bày kết thu từ liệu thực Do miền xác định luận văn: Tìm hiểu kỹ thuật dịch máy ứng dụng vào tài liệu hàng không , nên liệu trích xuất web site ngành hàng không (ICAO, Boeing Airbus)... hệ dịch máy tiến trình dịch tài liệu Cơ sở tri thức Văn nguồn Văn phân tích Dịch máy Kết dịch máy Dịch máy Con người Văn đích Hiệu đính -6- Hình 1.1: Quá trình xử lý tài liệu dịch máy Đầu vào