(Luận văn thạc sĩ) xây dựng bộ phân tích cú pháp tiếng anh trong hệ dịch tự động anh việt

110 38 0
(Luận văn thạc sĩ) xây dựng bộ phân tích cú pháp tiếng anh trong hệ dịch tự động anh việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI MỌC Q U Ố C (ỈIA HÀ NỘI K H O A CÔNG N G H Ệ LÊ N H CƯ Ở NG X Â Y DỰNG B ộ PH Â N T ÍC H c ú P H Á P TIẾN G ANH T R O N G H Ệ D ỊC H T ự Đ Ộ N G ANH - V IỆT LUẬN VĂN THẠC SỸ KHOA HỌC CHUYÊN NGÀNH: TIN HỌC MÃ SỐ; 010110 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS H ố s ỉ Đ À M HÀ N Ộ I - Năm 2001 Mục lục Chương 1: Giới thiệu th u n g 1.1 Thế dịch máy, vai trò vị trí .6 1.2 Lịch sử cùa tlịch máy 1.3 Các chiến lược dịch máy 1.3.1 Dịch trực tiếp 1.3.2 Dịch chuyển đổi 1.3.3 Dịch liên ngữ 10 10 11 13 1.4 Một số liếp cận 1.4.1 Dịch máy dựa thông k é 1.4.2 Dịch máy dựa trẽn ví dụ 15 15 17 1.5 Phạm vi nghiên cứu luận vãn 18 Chương 2: Phương pháp dịch chuyển dổi 21 2.1 Sư đổ hệ dịch chuyển dổ i 21 2.2 Phân tích hình thái 22 2.3 Phàn tích cú pháp 2.3.1 Biểu diễn cấu trúc 2.3.2 Thuật tốn phân tíc h 2.3.3 Chuyển dổi cấu trúc 2.3.4 Nhập nhằng cấu trúc 26 27 31 34 36 2.4 Phân tích ngữ nghĩa Sinh câu 40 2.5 Tổng kết 44 Clurưng 3: Phán tích cú pháp tiếng Anh hệ thông dịch Anh-Việt 46 hệ thống dịch A nh-Việt 46 3.2 Kết hựp với tiếp cận iheo mâu dịch 49 3.3 Lựa chọn thuật toán Earley cho phân lích 51 3.4 Phân tích thành phần cho câu cổ cấu trúc xấu 58 3.5 Xử lý nhập nhằng cấu trúc 62 3.6 Tổng kết 67 Chương 4: Phân loại từ vựng xay tlựng luật ngữ pháp 69 4.1 Một số dặc diểm phán loại Iigữ pháp 70 4.2 Các lớp ngữ pháp 4.2.1 Động l 4.2.2 Tính lừ 4.2.3 Phó lừ 72 72 75 77 3.1 Tống quan 4.2.4 Đại l 79 4.2.5 Danh từ 81 4.2.6 Các loại khác 82 4.3 Xây dựng.bộ lu ật 82 4.3 4.3.2 4.3.3 4.3.4 i Phân mức luật .83 Qui tắc xa y dựng cụm 83 Bổ sung cấu trúc 85 Một sô' luật cú pháp tiếng Anh 86 4.4 Tổng kết 94 Chương 5: Chương trình thực nghiệm 96 5.1 Các cấu trúc liệu % 5.2 Thực nghiệm 99 5.3 Tổng kết 101 Kếi luận 103 Tài liệu tham khảo 105 Phụ lục 108 GIỚI THIỆU Dịch máy Lĩnh vực dược nghiên cứu ứng (.lụng Milieu lình vực xử lý ugỏn ngữ tự nhiên Trên giới, dịch máy dã dược nghiên cứu lừ lất lâu phát triển lớn mạnh lù thập ký 80 Kết rát nhiều hệ thống ihương mại dịch máy có mặt thị trường hổ trợ người nhiều (rong giới với lượng thông tin trao dổi ngày lớn, tốc độ nhanh với nhiều ngôn ngữ khác Hơn phát triển Internet ngày khắng định nhu cầu cần Ihiết hệ ilịch máy Vì vạy Luận văn dặt vắn dể nghiên cứu dịch máy, dó sâu vào nghiên cứu inộl lĩnh vực dịch máy liên quan tiến việc phát Iriển niộl hệ thống địch lự động lừ liếng Anh sang tiếng Việt Đây hệ thống cần thiêì đầu liên hệ thống dịch máy lừ tiếng nước ngồi sang tiếng Việt (vì quan trọng liếng Anil í rên giới) Trong phái triển dịch máy, tiếp cận dịch trực tiếp dược coi nhu dặc mrng cùa hệ thống thuộc chê hệ iláu tiêu Tiếp theo, hệ ihơìig dựa Hèn luật bao gồm phương pháp dịch chuyến đổi liên ngữ thường xem nlur mang đặc lính thê' hệ (lịch máy thứ hai Gần dây lum, phương pluíp dựa trẽn kho ciữ liệu văn bán (corpus) dịch máy dựa thống kê, (lịch máy dựa ví dụ tỉui húl (lược nhiều quan tám nghiên cứu Tuy nhiên phương pháp nhiéu hạn chế áp liụng niộl phạm vi định đưực qui tắc tổng quái cua ngơn ngữ tụ nhiên, hệ thống dịch thương mại đa số vàn ilieo liếp cận phương pháp dịch chuyển dổi Chính phương pháp (lịch chuyến đổi cách tiếp cận ill ích hợp việc xây dựng mội hệ ihống dịch lự tlộng Anh-Việi Trong liếp cận dịch chuyển đổi, việc giái vãn dề liên quan đến phim lích cú pháp ngơn ngữ nguồn, dây ngôn ngữ liếng Anh, mội còng việc rấ! quan trọng Luận văn nghiên cứu ván (lé liên quan đến xử lý cú pháp i)ệ lhống dịch Anh-Việl hao gổm xây liựng 1)6 lnậl ngữ pháp lieng Anh, VỚI dưa nliìíiig 1)0 sung liong pli.in loại ngừ pháp cho phù hợp với nhu cầu dịch máy Trong phán lích cú pháp cho ngơn ngữ lự nhién liai vấn dề quan Irọng hay gặp phái việc phân tích cáu có Ink xấu mà luật cú pháp khơng nhận dược việc có nhiều cay phau lích đo nhập nhằng vé cấu irúc cùa ngơn ngữ iự nhiên Do mà bén cạnli việc xây (lựng luậi cú pháp, Luận vãn nghiên cứu đưa giái pháp cho ván để phán tích câu có câu trúc xấu xử lý nhập nhằng vể cấu núc Sau đó, Luận vãn kết hạp két để xây đựng hệ thống phán lích cú pháp liếng Anh mà dụng cấu phẩn hệ dịch lự động từ tiếng Anh sang liếng Việt Như vấn đề dạt Luận ván nghiên cứu, xử lý vấn dê liên quan để xây dựng phân lích cú pháp liếng Anil sử dụng hệ ihống dịch tự dộng Anh-Việt .ỉ Chương 1: Giới thiệu chung 1.1 T h ế dịch máy, vai trị vị trí Trái qua thập kỉ, vấn đề dịch máy dược râì nhiều nhà khoa học quan lâm, họ dã đưa nhiều khái niệm dịch máy, nhiên ý urởng họ nhau: Các hệ dịch máy (machine translation system-MT) hệ thống sử dụng máy linh đ ể dịch tài liệu từ thứ tiếng (trong ngôn ngữ lự nhiên) sang vài thử tiếng khác Ngôn ngữ văn cần dịch gọi ngôn ngữ nguồn hay ngổn ngữ vào Ngôn ngữ văn dịch gọi ngôn ngữ đích hay nỵỏn ngữ Theo thống kê Liên hợp quốc có gần 10.000 ngơn ngữ tồn giới Nhờ có ngơn ngữ khác lồi người có văn hố đa dạng, với lượng ngơn ngữ nhiều trỏ thành hàng rào ngăn cản phái iriển thương mại giao lưu thông tin quốc tế Để khắc phục cản trở này, ioài người phải dùng đội ngũ phiên dịch/ biên dịch viên lớn dể dịch văn tài liệu, lời nói lừ tiếng nước sang liếng nước khác Đó cơng việc Ihủ công, nặng nhọc suất Ihấp, giá ihành cao , khối văn cần dịch lại ngày nliiổu Mặi khác, với phát triển nhanh chóng Internet dẫn tới nguồn Ihỏng tin truy cập từ khắp nơi giới với nhiều ngôn ngữ khác nlnui Diều làm tâng nhu cáu dịch lừ ngôn ngữ lới ngôn ngữ khác với loe (lộ nhanh mà việc dịch ihủ cồng dã khơng cịn (láp ứng dược Do vậy, dịch máy nhu cầu tất yếu Nó dóng mội vai Irị quan trọng dời sống xã hội có tính kinh tế cao Dịch máy (lược bái đầu Hgiên cứu sail xuất máy tính diện từ dầu liêu Tuy nhiên, ilịch máy khơng chí ứng dụng till học phi số l mà iió cịn cần liíựng lớn tri líuxc dịch Do mà việc giái Cjitï li iộl đe ngón ngữ lự nhiên dieu vó cúng khó khăn đến cịn rát nhiều vấn dé cán cỉirợc tiếp tục giải (ịiiycì C l u i n g la c ó thè h ì nh d u n g m ộ t hệ d ịc h m y q u a sơ (lổ sau: Con người S r 'Ẩ yr-* A vãn bán vào - ► t soạn tháo, —► kiểm tra tả Dich may A lliệu dính - -> ► văn bán C sứ u i Ihức H 1.1 Sơ đồ lổng quan hệ dịch máy Dầu vào cùa hệ dịch máy lliỏng thường văn bán (texl) viết ngôi) ngữ nguồn (ngôn ngữ cần dịch) Văn cổ thể lấy lừ hệ soạn tháo văn bán, hệ nhận dạng clnì viết, lời nói v Suu dó vãn bán có the kiếm lia lại nhờ khối soạn thảo, kiểm lia tá, nước dưa máy dịch Trong trình dịch máy, hệ ihống thường phái sử dụng đến mội lượng lớn trí liurc dịch Trí Ihức dịch bao gồm loại từ điển hình thái, lừ điển từ vựng, từ điếu luật, Ở dầu vãn ngơn ngữ (lích Với văn hán la phái hiệu chinh soạn (háo cho phù hợp với việc sử (lụng Ngoài hệ dịch máy tụ dộng, cịn có hộ tlịclì máy trợ giúp - MachineAiđcil Translation (MAT) dược chia làm loại: a) lliiDtiiti-assislcri machine translation (I lAMT) Dịch máy với irợ giúp người: máy (lịch chính, to il người giiim sál vá j ỉi ii | > m y k l t i ' i i i i t i i i ố l ( c h ọ n i l ú n t * H g h ĩ i t I r o n y l i i r ù i i ị i l u i ị ) l i l i H g l i i i i ) b) Machine- assisted human translation (MAIil ) Người (.lịch với trự giúp máy: Người (lịch chính, máy giúp tiỡ có yêu cầu người (ira nghía từ, thành ngữ ) c) Teiminology-Daht banks Ngàn hàng thuật ngữ: thực chất đáy hệ dịch máy, nlitrng cung cáp mội lượng thuật ngữ lớn, cần thiết xây dựng, cập nhật sở liệu c h m áy dây chủ yếu quan lâm đề cập tới vấn (té Iron g hệ dịch máy lự dộng 1.2 Lịch sứ cùa dịch máy Dịch ngôn ngữ tự nhiên máy, ước mơ từ Ihế kỷ 17, dã irớ thành thực cuối kỷ 20 Các chương trình dịch máy khơng hoàn háo theo ý người mong mỏi văn có tính vãn chương tiểu thuyếi, thơ Tuy nhiên, ỉà chấp nhận dược văn bán kĩ thuật, khoa học Sau phác thảo tính cư bán, lịch sử dịch máy có phát h iến lừ người tiên phong hệ Ihống ban dầu lừ nãm thập ký 50 60 đến ảnh hưởng báo cáo A I J 5AC thập kỷ 60, lấy thông till irong năm 70, xuất liệ Iliống lịuàn líiưưng mại nhữn năm 80, nghiên cứu năm 80, phái Iiien năm 90, việc lăng mức ciộ sử dụng hệ thống irong thập ký vừa qua Giai đoạn tiền máy tinh: It nlúiì từ ký 17, nhà nghiên cứu nhà triết học dã dể nghị xây dựng biểu diễn chung cho tất ngôn ngữ đề vượt qua l cản ngôn ngữ Gán hơn, chế dịch thực máy dã dược cấp báng sáng chế cho Pelr Smirnov-Troyaskii người Nga năm 1933 ( 'ác IIO lực đầu tiên: Ban dầu người ta dể nghị việc sứ dụng kỹ thuật tinh loán sỏ Irong dịch máy, VII/I' n y k é o i lài íl n h ã t ( J en , k h i m m y l í n h llùtnli c ó n g I r o n g I ij : n h m ặ t nul Irong chiến thứ hai Đến để nghị lừ Warren Veave kế hoạch dặc biệt sử dụng máy tính để dịch ngơn ngữ tự nhiêu dã làm bắt đầu nghiên cứu dịch máy lại Mỹ nơi khác nén giới Bản Irìiih diễn đầu liên hệ thống dịch Nga-Anh năm 1954 Sự kiện link* đẩy nghiên cứu dịch máy Liên Xô(cũ) nhiều nơi khác giới Hán ihởng báo ALPACị Ỉ9Ố6): Sự khởi đầu lạc quan dịch máy kết thúc Mỹ bán ihông báo nhà lài trợ phủ ALPAC cảnh báo lằng dịch máy không đạt đưực hiệu mong muốn Kết tiển tài (rợ từ dịch máy chia cho lĩnh vực Aỉ CL Mặc dù số nhóm dịch máy tiếp tục hoạt dộng bên ngồi nước Mỹ Thập kí 1970 rà hoạt động dịch máy: Đầu thập ký 1970 tiếp tục nỗ lực dịch máy, xây dựng hệ thống dịch máy Đẩu liẽn hệ thống dịch Nga-Anh cho không quân Mỹ năm 1970, hệ thống Méléo bắt đầu dịch tin thời liết vào năm 1976 Cũng năm 1976, cộng dồng Châu Âu cài dặt hệ dịch Anh-Pháp ì lói sinh thập kỷ 1980: Cuối năm 1970 đầu năm 1980 dịch máy lại quan tâm lớn Do ảnh hưởng kết dự án Grenoble Saarbruken từ Ihập kỉ 1970 1960, dự án Eurolran cộng đồng Châu Âu bắt đầu lừ năm 1982, hướng dịch máy dựa tri ihức (Knowledge-Based MT) dược bắt đầu nghiên cứu Mỹ từ năm 1983 Thời gian thấy xuất hệ ihống dịch thương mại Cuối thập kỷ ỉ 980 dầu thập kỉ ỉ 990: Mội số lượng công ly, dậc biệt công (y điện lử lớn Nhật bắt dầu quáng cáo sản phẩm phần mềm dịch máy cho máy Irạm Xuất sơ' sán phẩm cho máy tính cá nhân lất nhiều công cụ trự giúp dịch bắt đầu dưực sứ dụng cách thông dụng Cũng giai đoạn thấy lên ĩinh vực vé xử lý tiếng nói hướng tiếp cận thống kè dịch máy ( 'nói thập kí 1990 cúc hệ trợ ịỊÌÚỊ) dịch máy : Cuối (hập kỉ 1990, pliiíu mềm dịch chạy l’C trẽn liilcmct (là phổ biến dưực dùng râì hiệu Trong giai doạn nhà khoa học quan tâm đến tiếp cận dịch dựa ví dụ (example-Based MT) 1.3 Các chiến lược dịch máy Các hệ thống dịch máy thông thường dược phàn loại ihco chiến lược sau đây: Dịch Inrc tiếp Các hệ llìống dịch Irục liếp liên quan đến việc dối sánh mầu xâu cách rộng rãi với việc sấp xếp lại xâu đích cho tliích họp với ngơn ngữ dích Râì nhiều hệ thống trước dây số phàn mềm dịch máy cho máy cá nhân dùng chiến lược Các hệ thống theo tiếp cận ihiét kế cho cập ngơn ngữ cụ thể, tiến trình dịch ià ưực liếp từ ngơn ngữ nguồn sang ngón ngữ đích Đặc điểm dịch trực tiếp phân lích ngơn ngữ nguồn hướng tới đặc tả cho ngơn ngữ đích cụ thể, hệ thống bao gồm bao gồm từ điển song ngữ lớn, mội số qui tắc từ vựng sử dụng cho phân lích từ điển thủ tục xử lý đặc trưng cho việc chuyển đổi hai ugòii ngừ Sau dûy lổng kết bốn giai doạn thường dược đùng cho hệ lilting dịch máy trực tiếp: Phân lích hình thái câu nguồn: Cơng việc giai đoạn phân câu ihànlì từ vằ phán tích hình thái cho lìhững từ Chuyển đổi nội dung từ vựng lừ ngơn ngữ nguồn sang ngồn ngữ đích: chọn nội dung dịch tương đương từ ngơn ngữ đích Cơng việc sử đụng từ diếu song ngữ Mộl số hệ lliống việc sir dụng lù điển song ngữ CỊI1 sử dụng ihủ tục chọn nghĩa lừ dựa vào ngữ cảnh lân cận X lý dặc trưng: phần v iệc g iai đoạn phụ 1ỈU1ỘC vào k h ác ngơn ngữ đích ngổn ngữ nguồn mà tlạrc xử lý liên quan đến lừ ghép, cụm danh từ, cụm dộng lừ, giới lừ, hay liêii (|ìian đốn vị ni s v o (chù từ, động từ, lúc tìr>,_ 10 int k; // kí hiệu tên từ loại hay tên terminal CRuleWord *next; // tạo thành danh sách để xãy dụng biểu thức luậl // thông tin khác : thì, số , loại }; Lớp chứa luậl: class CRule I CRuleWord *bieuthuc; //biếu thức chứa luật char *chuyendoi; // chứa cú pháp điểu khiển chuyến dổi ngữ pháp CRuIe *next; // tạo thành danh sách luật để lưu hộ luật // thông tin khác : ngữ nghĩa, }; Cấu trúc item, tập itcin: Cấu trúc item tập item cấu trúc quan trọng thuật tốn Earley việc xây dựng cấu trúc hợp lý tăng tốc độ của phân tích Chúng ta ý bước Predictor hước Scanner Completer đểu truy cập đến item có tính chũi phần tử sau dấu chấm Do dó tập item lun trữ theo phần lứ sau dấu chấm sau: item dạng [A-> a,i] class Cltem ( CRule *luat; // chứa trỏ liên kết tới luật tương ứng int daucham; // chứa vị trí dấu chấm int vitri; // chứa giá trị i Cĩtem *right; // liên kết đến item có phần lừ sau dấu chấm Cltem *next; // trỏ liên kết đến item khác I; Cấu trúc cú pháp Cấu trúc cú pháp chứa phân tích, nút cAy chứa item tương ứng sô' hiệu tập item chứa item để dùng dể sinh cày class CTree 98 { Cltem *item; // trỏ chứa item int k; // sô' hiệu tạp item chứa item CTree * right; // liên kết đến anh em bêu phải CTree *left; II liên kết đến COI1 trái ); 5.2 Thực nghiệm Trong hộ thống dịch thực cần phái có số bước càn thực trước phân tích cú pháp, sơ đồ sau: (^ ^ ẽ â u vào H 5.1 Sơ đồ tiền xử lý phân tích cú pháp Như sau đưa câu vào, hệ thống cần chuẩn hố đầu vào tìm kiếm kí hiệu đặc biệt để phát cụm đặc biệt, khuòn dạng cấu trúc câu Sau tìm kiếm cụm từ ghép câu, đưa vào phân tích hình thái Trong hai thành phần “chuẩn hố đầu vào” “lìm kiếm từ ghép” khơng phải thành phần hệ thống lại quan trọng ảnh hưởng đến chất lượng phân tích cú pháp Đè' đơn giản tập trung vào xây dựng phân tích cú pháp, hệ thống có phần phân tích hình thái thành phần phân tích cú pháp Vì dế hạn chế đưực việc phái xử lý chuẩn hố dáu vào trước phân tích, xây dựng câu test câu tài liệu [ i KGrammar In Use) Đùy tài liệu vé ngữ pháp tiếng Anh iliông dụng nhất, đó: 99 - Các câu test liệu thể tất cà tượng ngữ pháp tiếng Anh thơng thường, kiểm tra dược tính dầy đú luậỉ, tính đắn cùa luật dựa phân loại - Các câu đa dạng thẻ hiên nhiều cấu trúc ngôn ngữ đế kiểm tra giải pháp nhập nhằngvà giải pháp phân tích câu có cấu trúc xấu số câu 672 sổ'từ/câu 8.3 số từ cùa câu dài 21 số ngữ pháp 130 số câu/ ngữ pháp 5.2 B5.1 Bảng thông tin liệu test Kết test thể qua thông till Hong hai bảng sau: số câu tỉ lệ phân tích đầy đủ 573 85% phân tích thành phần 99 15% tổng số câu 672 B5.2 Bảng thơng tin sơ' phân tích câu phân tích được, xét số lượng phân tích theo Ihỏng tin cùa bảng sau: số câu số phân tỉ lệ lích/câu 338 59% 126 22% 46 8% 100 I 30 5% 33 >=5 6% tổng số củu=573 B5.3 Bảng thông tin nhập nhằng cấu trúc Trong câu khơng phân tích phương pháp thơng thường, dùng thuật tốn phân tích thành phần kết sau: tỉ lệ sơ' câu phân tích 68% 67 tổng số câu = 99 B5.4 Bảng thông tin vể phân tích thành phần Phương pháp phân tích thành phần chủ yếu nhận dạng cụm câu Các trường hợp phân tích xảy chủ yếu câu có tượng rời rạc vé cấu trúc Các trường hợp sai nhiổu trường hợp vị trí phó lừ chưa xây dựng hết luật, số hình thái từ nhận dạng chưa dúng, số cụm gồm từ đơn Còn biện pháp đùng hàm tính điểm để xử lý nhập nhằng vé cấu trúc, luận vản kiểm tra số trường hợp, hầu hết trường hợp mà phân tích có sử dụng luật lừ vựng lựa chọn tốt 5.3 Tổng kết Như qua thống kê kết thực nghiệm chương chứng tỏ tập luật xây dựng thoả mãn mục tiêu đề 85% số câu phân tích bời luật kết cao, với câu test câu sách ngữ pháp chứng tỏ luật chúng la phủ nhiều cấu trúc ngữ pháp, mặt khác tỉ lộ cao phần câu có cấu trúc ngữ pháp chặt chẽ Tí lệ 15% số câu cịn lại khống phân lích 101 luật tượng ngôn ngữ urợng tỉnh lược, hiệ tượng rời rạc, cịn mộl số trường hợp vị trí dứng phó 'ất phong phú (hầu vị trí được) mà luật chưa phủ hết dượ Một kết khác tượng nhập nhằng cấu (rúc: số câu phâ tích số câu có phân tích 59%, số câu có phân tic 22% , cịn số câu có từ trở lẽn 6% Sự nhập nhằng cấu trú theo kết thấp nhờ vào phân loại ngữ pháp đ chi tiết đặc biệt việc phãn tích độc lập cụm giới từ Các biện pháp xử lý vé nhập nhằng cấu trúc phương pháp phân tích ihàn phcỉn đạt kết cao Với kết test 68% số câu có cấu irú phân tích thành cụm chứng tỏ ưu điểm phương pháp nà> Hơn làm tốt việc xây dựng luậi kết q trê) cịn cao Mặt khác phân tích sai có cụm đượ phân tích dẫn đến khả dịch phần câu cùa hệ thống khả tốt sử dụng phương pháp dịch trự( tiếp trường hợp 102 K ế t lu ậ n Luận vãn để mục liêu nghiên cứu vé việc xây dựng phán tích cú pháp tiếng Anh hệ dịch tự động Anh-Việt Từchưưng đến chương 5, vấn dề cách giái quyết, cách xây dựng tri thức liên lỊuan dến việc xây dựng hệ thống dược trình bày, luận vãn đạt kết sau: - Nghiên cứu tổng quan tiếp cận dịch máy, nghiên cứu sâu tiếp cận dựa luật, đặc biệt vấn dề phàn tích cú pháp - Đưa phương pháp xử lý với trường hựp phân tích có cấu trúc xấu cách mở rộng thuậi lốn Earley dể nhận dạng thànli phần hồn độc lập câu, phương pháp chọn cụm dộc lập - Đưa phương pháp xử iý nhập nhằng cấu trúc cách xây dựng hàm tính điểm phân lích dựa vào mức ưu tiên luật từ vựng tiếp cận lựa chọn cấu trúc dơn gián - Xây dựng luật cú pháp tiếng Anh CÍ10 dịch Anh-Việt cách tương đối đầy đủ với kết luật có 782 luật chung, đồng thời với mở lộng phân loại cú pháp cho phù hợp với nhu cầu dịch máy - Cài đặt chương trình hồn thể đầy đủ chức phân lích cú pháp Các kêì thực nghiệm chưưng thể phương pháp giải vấn đề đặt tri thức luật xây dựng cho kồì tốt, có ứng dụng hệ thống dịch thực tế Các kết dược áp dụng dự án xây dựng phẩn mềm dịch Anli-Việ! dược (hực lại công ty tin học Lạc Việt Các phương hướng nghiên cứu để tiếp tục phát triển kết luận vãn: - Cần tiếp tục hoàn thiện kết dạt dược bao gồm: bố sung luật cú pháp, thực nghiệm chứng lò có số cấu trúc tiếng Anh chưa đưa vào (rong luật; Kết hợp với phương pháp xác suất thống kê giải nhập nhằng cấu Irúc - Gắn sử dụng thuộc tính ngữ nghĩa phân lích cú pháp nhằm giải vấn để nhập nhằng cấu Ink- ilươc xác Ihực mối 103 liên kết thành pliđn dộc lập vồ mặt cú pháp cAu Dây tiếp cận khó VI thực (rên thuộc tính ngữ nghĩa, nhiên cần thiếl để tâng cường chất lượng hệ Ihống - Một hướng liên quan cần nghiên cứu sinh luật cú pháp tự dộng dựa vào sớ liệu văn bán dã dưực thực phân tích ngữ pháp phương pháp thủ công 104 Tài liệu tham kliáo A/ Tài liệu vé ngữ |)háp tiếng Anh 111 Kn^lislt (ỉrum im ir In Use - Ngữ pháp licnj» Anil time liànli lác giá Raymond Mitrpliy người dịcli : Trán Châu Uyên Nhà xuất bán mũi Cà Mau 1995 12 ị Van phạm Anh ngữ thực hành - Apractical English (ìram m ar lac giá : A J Thomson A.V.Murliuet Iiyuóị (.lịch ; Niiil) I lùng Nhà xuái bán ué |3| 1997 Từ (lien Anil - Việt hiên soạn : Tò Vài) Sưu - Nguyên Van Liên - Phạm Vũ Lứa llạ Nhà xuát bán (ìiáo (lục - 1998 HI ( ’ách (lùng ị>ió'i từ tiếng Anh Lie giá : Trần Vãn Điển Nhà xuáì báu Thành phị' I lố Chí Minh 1998 ỉỉ/ Sách dịch máy ị5| Ai IIIIO Trujillo 1999 Translation Engines : Techniques for Machine Translation Springer-Vei lag London Limited 1999 Ị()| C ïtrislo p h ei' 1) M a n n in g and M u n ich S c h u lz e IW Foundation of Statistical Natural Language Processing The MIT Press, Cambridge, Massachusetts London, England ị7Ị Daniel Jmafsky and James 11.Marlin 2000 Specch and Language Processing - All introduction ÍO nalunil laiiguge Processing, Compnlulioiiiil Linguistic, 2111(1 Speech Recognition l’ivnticc-1 lail, Inc, Upper Saddle Kiver, New Jersey 07-J58 |8| w Joliii f Itildiins anti Ilaiokl [ Somers 1992 An introduction to Machine Translation Academic Press, Harcourt Brace Jovanovich, Publishers c / Bài báo liên quan [9] Sebastian Goeser 1992 Chart Parsing of Robust Grammars Proc of CoIing-92 [10] K Jensen, G.E Heidorn, L.A Miller and Y Ravin 1983 Parse Fitting and Prose Fixing: Getting a Hold on Ill-Formedness Computational Linguistic 1983, pp 147-160 fill Stan c Kwasny and Norman K Sondheimer 1981 Relaxation Techiniques for Parsing Ill-Formed Input Computational Linguistic 1981, pp 99-108 [12] Philip J Hayes and George V Mouradian 1981 Flexible Parsing Computational Linguistic 1981, pp 232-242 1131 Sofia N Galicia-Haro, Alexander Gelbukh, and Igor A Bolshakov 2001 Three Mechanism of Parser Driving for Structure Disambiguation Prof o f CfCLing ,pp 192-194 [14] Koichi Takeda 1996 PaUern-Based Machine Translation Proc of Coling ’96, pp 1154-1158 [ 15 Kim, Jung-jae, Choi, Key-Sun, Chae, Young-Soog 2000 Phrase-Pattern-based Korea to English Machine Translation using Two Level Translation Pattern Selection Proc of ACL 38"’-2()00, pp 31-38 [16] Nancy Ide and Jean Véronis 1998 Introduction to the Special Issue on Word Sense Disambiguation: The State of Art Computational Linguistic 1998, pp 1-40 106 Ị 17] Brow Peter, Joh Cocke, Stephen Della Pietra, Vincent J Della Pietra, Fredrick Jelinek, John D.Lafferty, Robert L Mercer and Amelie Banks (IBM), 1990 A Statistical Approach to Machine Translation Computational Linguistic 1990, pp 79-85 [18] Brow Peter, J Cocke, s.ADella Pielra, V.J Della Pietra and R.L Mercc (1993) ■ The M athematics of Statistical Machine Translation Computational Linguistic 1993, pp 263-312 [ 19] Sato, s and M Nagao (1990) Towards Memory Based Translation Proc of COLING, 1990 pp 247-252 107 Phụ lục: M ộ t s ố luật cú p h áp sử d ụ n g tro n g h ệ thống $ s := $S2 $cuoi_cau $ s := $S1 $cuoi_cau $S2 := $cdgt $bongu_cuoicau $s := $S1 $S1 $cuoi_cau $s := $S1 "but" $cau_tinh_luoc $cuoi_cau $ S I := $S1 $m en h „d e $ S I := " i f $ S "then" $ S ! $SI $SI $SI $SI $SI := := := := := " i f $S1 '7' SSJioidaol "either" $S1 "or" $S1 $SI $li_md $S1 $S1 $u_md $SI $S1 $cli_qh $SI $ S I : = $clt Cịli $ S I $SI $SI := $cll_qh $S1 $S1 $cuoi_cau SSI := $S1 "more" "than" $S1 $SI := $bongu_c!aucau Schutu $cdgl $lt_md $cdgt $bongu_cuoicau $S1 := $bongu_daucau $chutu $cdgt $bongu_cuoicau $SI := $ S I $li_iml $cdgl $hongu_cuoicau $SI := $cdgt_ing $bongu_c»oicau $S1 $S1 :=$ S $h_qli $cdgt_ing $bongu_cuoicau $S_hoi := $S_hoi $bongu_cuoicau $s := $S_hoi $cuoi_cauhoi $ s := $S_hoil $H_md $S1 $cuoi_cauhoi $ s := $S_hoil $menh_de $cuoi_cauhoi $ s := $S_hoil $clt_qh $SI $cuoi_cauhoi $S_hoidaol := $S_hoidao $bongu_cuoicau $s := $S_lioidaol $cuoi_cauhoi $s := $S_hoidaol $It_md $S1 $cuoi_cauhoi $s := $S_hoidaol $menh_de $cuoi_cauhoi $s := $S_hoidaol $clt_qlì $Sl $cuoi_cauhoi $S_hoi := $cpht_ngv $S_hoidaol $S_hoi := $tuct_ngv $S_hoidao_TUCr $ s := $S_hoiduoi $cuoi_cauhoi $ S l_ T U C r := $chútu $cdgt_TƯCT Schulu := $tt_sl Schutu := $chutu $bongu_cau $chmu := $chulu $ll_tu $chutu $chutu := $chutu_gia $chutu := $ccỉt_bongu Schu lu : = $ddl_chl 108 $chulu Schutu $chutu Schutu $chutu $chutu $chutu $chutu $chutu $chutu $chutu := := := := := := := := := := := $ddt_cht $ddt_phth $cdt_bongu $md_trng $cdt_bongu $md_lng $cdt_bongu $md_tng $md_dng "not" "only" $chutu "but" "also" Schutu $cdl $cdgt J n g $bongu_cuoicau $cdt $cdgt_pht_TUCT $bongu_cuoicau "both" $chutu "and" $chutu "neither" $chutu "nor" $chutu "either" $chutu "or" Schutu $chutu_qh := $ddr_qh_cht $chutu_qh := $cdt_qh $chulu_ngv := $ddt_ngv_cht $chutu_ngv := $cdt_ngv $tuct := $tuct $li_tu $tuct $tuct := $luct "than" $vetrai_mdss $tucf := $cdt $luc{ := $ddt_luct -Stuct := $cdt $md_trng Stuci := $cdt $md_tng $lucl := $cdt_bongu $md_tng $luci := $md_dng $(uct := "not" "only" $tuct "but" "also" $tuct Uluct := $cdi $cdgt_ing $luct := $cdt $ctlgt_phi_TUCT $tuct := "both" $tuct "and" $tuct $iuct := "neither" $tuct "nor" $tuci Suict := "either" $tuct "or" $tuct $luct_qh := $ddt_qh_tuct $iuct_qh := $cdi_qh $mct_ngv := $cdt_ngv $luct_ngv := $ddt_ngv_tuct $md_lng := $clnitu_qh $cdgt $bongu_cuoicau $md_tng := $luct_qh $S1_TUCT SiiK ljng := $SI_TU C T $md_dng := $chutu_ngv $cdgt $bongu_cuoicau $md_dng := $cpht_ngv $SI $md_dng := $tuct_ngv $S1_TUCT $md_dng := $cpht_ngv $cum_to $cdgt_ngm $md_dng := $tuct_ngv "to" $ccỉgt_ngm_TUCT SimLirng := $cph(_ngv $S! $cum_to := "to" 109 $cum_lo := "not" "to" $menh_de := $cum J o $cdgt_ngrn $bongu_.cuoicau $cdgt_ngth := $cum_to $cdgt_ngm $cdgl_ngtli_TUCT := $cum_lo $cdgt_ngin_'l’UCT $cdgl := $ctrdgl_th_chudong $cdgt_ngm $cilgl_TUCT := $ctrdgt_lh_chudong $cdgl_TUCT $cdgt := $cirdgl_th_chudong $cdgt_ngm $cdgt := $ctrdgt_th $cdgt_ngm $algt_TUCT := $cudgi_th $cdgt_TUCT $S.Jioidao := $ctrdgi_lh $chutu $cdgt_ngm $S_hoidao_TUCT := $ctrdgt_lh $chulu $cdgl_ngm_TUCT !ÜS_hoi := $chulu_ngv $cdgt Ü)S_hoiduoi := Schutu Sctrdgtjh $cdgt_ngm $bongu_cuoicau Sddi_cln $cdgt := $dgt_lobe $cdgtJng $cdgi_TUCT := $dgt_tobel $cdgt_ing_TUCT $S_hoidao := $dgt_tobel $chutu $cdgt_ing $S_hoidao_TUCT := $dgt_tobel $chutu $cdgt_ing_TUCr $S_lioi := $chutu_ngv "be" $cdgt_ing $clrdgl_th $cdgl := $clrd gt_h lh $C(lgt_pht $cdgi_TUCT := $cirdgt_hlh $cdgi_phi_TUCT $S_hoiduo := $ctrdgt_hlh $chutu $cclgt_pht $ s lumliio TUCT := $ctrtlg!._hlh $cluUu $cilgl pill r i K ' r $ s Jioi := $chutu_ngv Sclrdgt J i t h $0.1 gt pill $algi $L‘irJgl_hlh "been” $cdgtjng $u lgLT U C T := $clrdgl_!uh "been" $cdgl_ing_TUCr $S_hokl := $clrdgt J illi $cliutu "been" $cclgi_ing $s_ h()i(lao_TUCT := $ctrdgt_hth $chutu "been" $cdgi_mg_TUCT -Scclgl := $ctrdgt_th(qkhj $cdgt_ngm $cdgl_TUCT := SctrdgtJlifqkh ] $cdgt_TUCT $SJioklao := $clrdgijhỊc|khỊ Schutu $cdgt_ngm $S_hoiduoi := $chutu $ctrdgi_th[qkh] $cdgt_ngm $bongu_cuoicau $ulgl := $dgt_tobel[qkhj $cdgt_ing $cdgi_TUCT := Sdgijobelfqkh] $Ci!gtJng_TUCT SSJioidao := $dgl_lobelfqkh] $chulu $cdgl_ing $S_hoidao_TUCT := $dgl_lobel[qkh] $chutu $cdgt_ing_TUCT $S_hoi := $chutu_ngv $dgl_tobel fqkh] $cdgt_ing $uigl := $ctrdgl_hth[qkhj $cdgt_pht Scdgt_TUCT := $ctrđgt_hth[qkhị $algt_pht_TUCT $S_h()idao := $clidgt_hll)(qkh] Schutu $ulgl_phl $S_hoidao_TUCT := $ctrdgt_hth[qkh] $chuiu $cdgt_pht_TUCT SS hoi := $chutu_ngv $ctrdgt_hth "been” $cdgt_ing $ulgl := SctiJgt.hihfqkh] "been" $cdgt_ing 110 r~ r is - c 0*7 c c r ÌỈ II ÌÍ ìí ÌỈ •b^ V * */7 Õ c ~ — IV £ • I 1^** *? — 13" s C- o c r •& u: o s| i ?c rT rrc LL ? c c ri cl rt t/ỉ o o c r, c x f : ỘT- Ç c ìỉ ÌỈ r/r t/r ^ Í/1 t/r xo/"- \ ■c/? x/ ^r r- o r/r Q o o r o n c o ÚÕ r~ c l cL Ü D d cL r- cL iL cL C l _ J r * L_ L * -— — C T O CJC a s o r Ợ C I*”* \~ c * V c c p Z ’ Ỵ’ n II 11 2* ?" 11 'li *li ƠC II —; II ~ I crc (fc oc «ri *~"r I! £ c &i/= — ^2 (JC Ơ ? 'ii ẽ C ÌỈ a 1y c c li Ì Ỉ ii 22* ỳ? 7.• • n o~ ~ n & Q ■be g &77 = */: • *Il • •II ^ I5- & II H v Ỵ x/r r o p (TO li x>e V o c c T*7 r •—‘ r crc be ac o Q _ CTw •be o ■be ƠC Crc c 1, arc 1*“ ore CỊ — i /“S ; j s c w o ỠQ oe r: o CJC I c n’ ƠC E óe c oc Ỉ n II -3 ? H ore $cđl := $cdl := $cdt := $ccM := $cdl := $cdl := $cdt := $cdt := "ihc" "whole" $cdl "the" $dg(jucl[ing] "ihe" $dgt_noiịing] $CŨI "of" $iidl_luct Scdt "of" $cdl $cdt $sohuu $cdl $dt_any $dt_any "else" $ c d t := $ ( t _ x d $ d l_ p h ih $cdt := $mt $dt_phth $cdt := $cdt_ch $cdi := $di_r $cdi := $cdl_xd $cdi := $phl_dt $cdl $ d g lju c t := $dgi_luctfngoi_3] $ đ g t_ lu c l := $ d g t_ tu c l $ lt _ t u $ d g l J i i c l $dgt_tucl := $dg(_tuci $dgl_luct $ d g t _ lu c l | q k h ] := $ ( l g t _ l u c t [ q k li ] $ lt _ t u $ d g i_ U ic t | q k h ] $ d g i_ iu c t [ q k h ] := $ d g t _ lu c t ( q k h ] $ d g t _ iu c t [ q k h j $dgi UKiịpht] := $đg! luctfphtl $ll tu $dgtjuciịpht] liityi lucllpht] := $tlgi Uicifpht] Stlgi Utciịphiị $ ílg t_ tu c l_ n g m := $ d g t_ tu c l $cdgt_ngm := $cpiu_tiuoc $dgi_!uci_ngm $cplu_truoc $tucl $cphi_dgt_th $edg[_ngm_TUCT := $cpiil_truoc $tlgl_tuel_ngm $cphl Jn io c $cdgt_ing := $dgl_tuci|ing] $cphl_truoc $tuct $cpht_dgl_th k x ig ijn g := "being" $dgt_tuct[phl| $c

Ngày đăng: 05/12/2020, 09:27

Mục lục

  • Chương 1: Giới thiệu chung

  • 1.1 Thế nào là dịch máy, vai trò và vị trí

  • 1.2 Lịch sử cùa dịch máy

  • 1.3 Các chiến lược dịch máy cơ bản

  • 1.4 Một số tiếp cận mới

  • 1.4.1 Dịch máy dựa trên thống kê

  • 1.4.2 Dịch máy dựa trên ví dụ

  • 1.5 Phạm vi nghiên cứu của luận văn

  • Chương 2: Phương pháp dịch chuyển đổi

  • 2.1 Sơ đồ của hệ dịch chuyển đổi

  • 2.2 Phân tích hình thái

  • 2.3 Phân tích cú pháp

  • 2.3.1 Biểu diễn cấu trúc

  • 2.3.2 Thuật toán phân tích

  • 2.3.3 Chuyển đổi cấu trúc

  • 2.3.4 Nhập nhằng về cấu trúc

  • 2.4 Phân tích ngữ nghĩa và Sinh câu

  • 3.1 Tổng quan về hệ thống dịch Anh-Việt

  • 3.2 Kết hợp với tiếp cận theo mầu dịch

  • 3.3 Lựa chọn thuật toán Earley cho phân tích

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan