CẢI TIẾN CHẤT LƯỢNG DỊCH máy THỐNG kê VIỆT – ANH BẰNG mô HÌNH PHÁT SINH từ CHỨC NĂNG

Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM VII-O-14 CẢI TIẾN CHẤT LƢỢNG DỊCH MÁY THỐNG KÊ VIỆT – ANH BẰNG MÔ HÌNH PHÁT SINH TỪ CHỨC NĂNG Nguyễn Thị Phƣơng Nhƣ1, Trần Vũ Hoàng Ƣng2, Nguyễn Thị Thanh Thảo3 1 Trường Cao đẳng Bến Tre Trường Đại học Kỹ thuật Công nghệ TP. HCM 3 Trường Cao đẳng Kinh tế Kỹ thuật Phú Lâm TP. HCM 2 TÓM TẮT Từ chức năng là những từ ít mang ngữ nghĩa nhưng lại đóng vai trò quan trọng trong cấu trúc câu, góp phần tạo tính tự nhiên cho văn bản đích. Tuy nhiên, phầ n lớn các hệ thố ng d ịch máy thống kê (Statistical Machine Translation – SMT) lại không chú trọng nhiều và thường đánh đồng từ chức năng với từ nội dung. Để giải quyết vấn đề này, chúng tôi áp dụng mô hình phát sinh từ chức năng trong ngôn ngữ đích. Trong mô hình này, việc xóa từ chức năng sẽ được thực hiện trước khi đưa vào mô hình dịch (translation model); trong khi đó, việc chèn từ chức năng sẽ được tích hợp vào quá trình giải mã SMT (SMT decoding) thông qua mô hình log-linear. Chúng tôi đã thực nghiệm trên ngữ liệu gồm 20000 cặp câu song ngữ Việt – Anh và nhận thấy điểm BLEU tăng 2,58% (so với mô hình cơ sở). Từ khóa: Từ chức năng, dịch máy thống kê Việt-Anh, mô hình log-linear. GIỚI THIỆU Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một lĩnh vực nghiên cứ u nhằ m giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ c ủa con người. Mă ̣c dù chỉ đươ ̣c dùng chủ yế u để dich ̣ các tài liệu kỹ thuật nhưng dịch máy (Machine Translation - MT) đươ ̣c xem là mô ̣t trong những hướng ứng dụng chính của xử lý ngôn ngữ tự nhiên . Dịch máy là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50 và được phát triển mạnh mẽ vào thập kỷ 80 [4]. Hiện nay trên thế giới đã có rất nhiều hệ dịch máy thương mại nổi tiếng điển hình như: Systrans, Kant,… [19] hay những hệ dịch máy mở tiêu biểu nhưhệ dịch của Google đã hỗ trợ nhiều cặp ngôn ngữ phổ biến như Anh-Pháp, Anh-Hoa, Anh-Nhật, Anh-Đức,… Có nhiều hướng tiếp cận để giải quyết bài toán dịch máy là : dịch máy dựa trên luật (Rule-based Machine Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT), dịch dựa trên cơ sở tri thức (Knowledge-based Machine Translation - KBMT), mô hình dịch thông số (Factored Translation Models)… Trong đó, dịch máy thống kê ([11], [15]) được cho là mô hình mới nhất, triển vọng nhất vì nó có thể áp dụng cho hầu hết các cặp ngôn ngữ. Mô hình dịch máy thống kê là một mô hình tự động, xây dựng các bảng dịch từ vựng và các xác suất tương ứng từ ngữ liệu song ngữ [11]; do đó, kho ngữ liệu càng lớn và có chất lượng thì hiệu quả dịch sẽ cho kết quả cao. Tuy nhiên, mô hình này không sử dụng các tri thức ngôn ngữ như: tách từ, gán nhãn từ loại, phân tích cú pháp, hay gán nhãn cú pháp,… Đây chính là lý do quan trọng làm hạn chế hiệu quả dịch của SMT, đồng thời đó cũng là động lực cho rất nhiều nghiên cứu về việc bổ sung tri thức ngôn ngữ vào hệ thống SMT. Hiê ̣n là những từ đóng vai trò quan tr ọng trong cấu trúc câu, thể hiện mối quan hệ ngữ pháp giữa các từ trong câu. Sự xuấ t hiê ṇ cũng như vi ̣trí của nh ững từ này sẽ ảnh hưởng đến tính t ự nhiên của văn bản đích. Tuy nhiên, phầ n lớn các hê ̣ thố ng SMT đề u không chú tro ̣ng nhiề u đế n từ chức năng , trong ([11][15]) từ chức năng đươ ̣c xử lý giố ng như từ nô ̣i dung (content word ). Nghĩa là các tri thức dịch từ chức năng đều dựa trên cơ sở gióng hàng từ . Trên thực tế , không phải từ chức năng nào cũng đươ ̣c gióng hàng đúng và chính xác , đôi khi có những từ bi ̣gióng hàng sai hoă ̣c thâ ̣m ch í không có từ được liên kết với nó. Xét ví dụ minh họa sau: Theo mô tả trong ví dụ này, khi dịch theo chiều Việt-Anh, the là từ chức năng được phát sinh ở ngôn ngữ đích, làm cho kết quả dịch có tính tự nhiên và thể hiện đúng ngữ pháp trong câu. Như vậy, từ ví dụ trên, chúng tôi sẽ có một vài vấn đề đặt ra như sau: Vị trí nào sẽ là vị trí thích hợp để chèn từ chức năng? ISBN: 978-604-82-1375-6 91 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Từ chức năng nào được xem là ứng cử viên phù hợp cho các vị trí đó? Tất cả những vấn đề trên sẽ được chúng tôi giải quyết trong bài báo này nhằm cải tiến chất lượng dịch của SMT. CÔNG TRÌNH LIÊN QUAN Cách tiếp cận dựa trên thống kê là một bước đột phá về phương pháp luâ ̣n cho dich ̣ máy , nhưng kế t quả thực tế của hê ̣ dich ̣ này còn thấ p . Vì vậy, người ta đang nghiên cứu cải tiế n nó bằ ng cách đưa thêm tri thức ngôn ngữ. Hiê ̣n nay có nhiề u cách cải tiế n hiê ̣u quả cũng như chấ t lươ ̣ng cho SMT , trong đó có đề câ ̣p đế n hướng cải tiế n tâ ̣p trung vào các từ chức năng (function word). Hiện nay đã có mô ̣t số công trình nghiên cứu nâng cao chấ t lươ ̣ng của SMT xoay quanh những vấ n đề liên quan đế n từ chức năng ; đó là sử dụng từ chức năng để chuyển đổi trật tự các ngữ [17], các cú pháp trong ngôn ngữ nguồn – đích [5] hoặc cải tiến chất lượng dịch máy thông qua việc xóa và chèn từ chức năng [12][2]. Hướng tiếp cận thứ nhất là sử dụng từ chức năng để chuyển đổi trật tự các ngữ, các cú pháp trong ngôn ngữ nguồn – đích. Mục đích của hướng tiếp cận này là giải quyết sự khác nhau về trật tự từ giữa ngôn ngữ nguồn – đích, tức là làm cho trật tự từ của ngôn ngữ nguồn gần giống với trật tự từ của ngôn ngữ đích; khi đó chất lượng dịch sẽ được cải tiến. Nhóm tác giả [17] đã sử du ̣ng giải pháp FWS - Function Word centered, Syntax-based để giải quyế t viê ̣c sắ p xế p các cu ̣m từ trong SMT d ựa trên các từ chức năng. Trong phương pháp này , các tác giả đã đề xuất văn phạm xác suất đồng nhất (Probabilistic Synchronous Grammar ) để mã hóa thứ tự của các từ chức năng cũng như các tham số bên trái (left), bên phải (right) của chúng. Thực nghiê ̣m cho thấ y hướng FWS tố t hơn hê ̣ thố ng dich ̣ cơ bản tron g viê ̣c sắ p xế p thứ tự các tham số của từ chức năng và cải tiế n chấ t lươ ̣ng dich ̣ trong cả trường hơ ̣p gióng hàng chính xác hay bị nhiễu . Tuy nhiên, giải pháp này chỉ áp dụng cho phía ngôn ngữ nguồn và nó cũng gă ̣p phải khó khăn trong viê ̣c sắ p xế p các cu ̣m từ (ngữ) dài (do mô hin ̣ ranh giới ngữ hỗ trơ ̣ cho những ̀ h xác đinh trường hơ ̣p này chưa đươ ̣c tố t ). Một nghiên cứu khác của nhóm tác giả [5] lại sử dụng từ chức năng nhằm mục đích sắ p xế p la ̣i cú pháp bên ngôn ngữ nguồ n trong SMT theo hướng tiế p câ ̣n không xác đinh (non – deterministic reordering approach ). ̣ Mô hình này đã đươ ̣c thử nghiê ̣m và so sánh trên 3 hê ̣ thố ng: hê ̣ thố ng SMT dựa trên ngữ cơ bản , hê ̣ thố ng sắ p xế p la ̣i dựa trên cú pháp với các mẫu dữ liệu được rút trích từ kho ngữ liệu và hệ thống sắp xếp lại dựa trên cú pháp cho các mẫu được trích với từ chức năng . Kết quả thực nghiệm trên hệ dịch Hoa – Anh (chỉ thử nghiệm trên ngữ liê ̣u có kić h cỡ trung biǹ h) cho thấy mô hình này tăng 0,34% so với hệ thống dịch Baseline. Tương tự như hướng tiếp cận đầu tiên, những mô hình trong hướng tiếp cận cải tiến chất lượng dịch máy thông qua việc xóa và chèn từ chức năng cũng mang lại hiệu quả đáng kể. Nhóm tác giả [12] sử du ̣ng phương pháp chèn và xóa các từ ch ức năng dựa trên các gơ ̣i ý về cú pháp (syntactic cues) trong dich ̣ dựa trên cú pháp (điể n hin ̀ h là Treelet ). Mô hin ̀ h này tương đố i đơn giản và cải thiê ̣n đáng kể chấ t lư ợng dịch cho các ngôn ngữ không cùng cấu trúc (chẳ ng ha ̣n: Anh – Nhâ ̣t, …). Phương pháp này chỉ được thực nghiệm trên các cặp Anh – Nhâ ̣t (điể m BLEU tăng 1,1% so với hê ̣ thố ng Treelet cơ bản ), Anh – Tây Ban Nha (điể m BLUE tăng từ 0,5% đến 1,1%). Một thực nghiệm khác cũng góp phần cải tiến chất lượng dịch SMT đó là thực nghiệm của nhóm [2]. Các tác giả đã đề xuất giải pháp xóa và chèn các từ chức năng trên ngôn ngữ đić h và nhìn chung , phương pháp này đem đế n những cải ti ến đáng kể so với hệ thống dịch cơ s ở trong dich ̣ Hoa – Anh (điể m BLEU tăng khoảng 1.28% trên bô ̣ dữ liê ̣u NIST 2005 và tăng 1.19% trên bô ̣ dữ liê ̣u NIST 2006). Trong bài báo này, chúng tôi sử dụng hướng tiếp cận cải tiến chất lượng dịch máy thông qua việc xóa và tích hợp chèn từ chức năngvào giai đoạn giải mã (decoding) cho hệ thống dịch Việt – Anh. MÔ HÌNH Trong bài báo này, chúng tôi đề xuất mô hình sau: ISBN: 978-604-82-1375-6 92 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Hình 1. Mô hình cải tiến chất lượng dựa vào từ chức năng Mô hình này gồm các giai đoạn: Xác định tập các từ chức cần xóa. Xóa từ chức năng: quá trình này diễn ra trong suốt thời gian huấn luyện mô hình. Mục đích của giai đoạn này nhằm làm giảm độ nhiễu của từ chức năng. Chèn từ chức năng: sử dụng mô hình TFWIM (Target Function Word Insertion Model). Xác Định Từ Chức Năng Trong bài báo này, chúng tôi quy ước: từ chức năng cầ n xóa là những từ chức năng thường xuyên không được gióng hàng. Giai đoạn này được thực hiện qua các bước: Bƣớc 1: Tính xác suất p(w) của các từ w không được gióng hàngtheo công thức (1): p w = Số phân đoạn từ không gióng hàng c ủa w Sốphânđoạntừcủa w trongngữ liệu (1) Bƣớc 2: Sắp xếp các từ w theo thứ tự giảm dần của p(w), khi đó chúng tôi có được danh sách các từ chức năng. Xóa Từ Chức Năng Dựa theo [2], giai đoạn này sẽ tiến hành xóa từ chức năng trong ngôn ngữ đích và khi xóa cần lưu trữ các thông tin ngữ cảnh (hay còn gọi là vùng thông tin ngữ cảnh) như sau: Thông tin từ loại (POS). Thông tin từ vựng. Xóa từ chức năng tiến hành các bước sau: Bước 1: Tiền xử lý dữ liệu như: tách từ, gán nhãn từ loại (POS). Bước 2: Xóa từ chức năng Do kết quả thực nghiệm trên vùng thông tin 4 từ cho kết quả chính xác nhất nên chúng tôi sẽ đề cập vùng thông tin ngữ cảnh này xuyên suốt bài báo. Gọi: T là tập ứng viên (tập các từ chức năng được xác định ở giai đoạn 1). wilàtừđang xét;wi-1 và wi+1lần lượt là những từ liền kề bên trái và liền kề bênphảicủawi. wi-2và wi+2lần lượt là những từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1. Pi-1vàPi+1lần lượt là từ loại của từ liền kề bên trái và liền kề bênphảicủawi. Pi-2vàPi+2lần lượt là từ loại của từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1. CLW, CPW lần lượt là thông tin ngữ cảnh từ vựng và từ loại. Để tránh mất thông tin ngữ cảnh về sau, cần tuân thủ quy tắc xóa như sau: IF(wi T và (wi-1 T, wi+1 T)) THEN tiếnhànhxóawi, thông tin ngữ cảnh khi xóa là : ISBN: 978-604-82-1375-6 93 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM CLW = (wi,wi-2wi-1wi+1wi+2) CPW = (Pi, Pi-2Pi-1Pi+1Pi+2) Ngược lại, IF (wi T và (wi-1 T hoặc wi+1 T)) THEN khôngxóawi. Xét câu tiếng Anh được gán nhãn từ loại sau đây, để tránh nhập nhằng thông tin trong trường hợp xóa, chúng tôi sẽ đưa thêm thông tin từ vựng START ở đầu câu và END ở cuối câu. “START|START the|DTislanders|NNSof|INtorcello|NN ,|, who|WPhave|VBPperhaps|RBalready|RBspread|VBNto|TOneighbouring|JJislands|NNSin|INthe|DTvenetian|JJl agoon|NN ,|, are|VBPincluded|VBNin|INthe|DTexarchate|NN .|. END|END” Xét tập T = {―the‖, ―in‖, ―to‖, ―for‖, ―of‖}, ta có các thông tin ngữ cảnh trong trường hợp xóa như bảng 1 sau: Bảng 1. Thông tin ngữ cảnh khi xóa từ chức năng Từ Thông tin ngữ cảnh Chèn Từ Chức Năng Stt chức Giai đoạn này được mô hình hóa thành bài toán Từ loại Từ vựng năng phân lớp và sử dụng phương pháp Maximum Entropy để START 1 the START islanders of phân lớp và quyết định vị trí chèn từ chức năng. NNS IN START START islanders Bƣớc 1: Xác định được vị trí cần chèn, bước này sử 2 of NNS NN , torcello , dụng thông tin ngữ cảnh từ loại. already spread Bƣớc 2: Sau khi tìm được vị trí chèn, mô hình sẽ RB VBN 3 to neighbouring tìm từ chức năng thích hợp để chèn vào. JJ NNS islanders Chúng tôi dựa vào mô hình TFWIM để tìm vị trí và từ chức năng thích hợp. Mô hình này được tính toán thông qua công thức Maximum Entropy (2). P( w | C)  exp[ i i f i( w, C)]  w 'W {NULL} exp[ i i f i( w ' , C)] (2) Trong đó: C: thông tin ngữ cảnh từ vựng hoặc từ loại được lưu trữ tronggiaiđoạn 2. fi(w,C):làtầnsuất của w xuất hiện trongthông tin C. i là trọng số tương ứng của hi(0 ... hành hệ thống: Hệ thống sở (Baseline) Hệ thống dịch Post-generation (phát sinh từ chức kết dịch) : mô hình SMT phát sinh từ chức kết dịch Hệ thống TFWIM: mô hình phát sinh từ chức đượctích hợp... mô hình chèn từ chức TFWIM.Giai đoạn phát sinh từ chức mô hình hóa thành toán phân lớp định vị trí chèn từ chức năng. Thực nghiệm liệu 1000 câu tiếng Anh, mô hình đạt độ xác 87,172% Trong mô hình. .. nhiên, ĐHQG-HCM Hình Mô hình cải tiến chất lượng dựa vào từ chức Mô hình gồm giai đoạn: Xác định tập từ chức cần xóa Xóa từ chức năng: trình diễn suốt thời gian huấn luyện mô hình Mục đích giai

Định dạng
Số trang	9
Dung lượng	1,03 MB