Hoạt động của mơ hình theo trình tự sau:
Câu nguồn được phân tích thành cấu trúc cây để làm rõ chức năng ngữ pháp và ngữ nghĩa. Cấu trúc câu nguồn được chuyển đổi bằng tập luật sang cấu trúc
96
tương đương của ngơn ngữđích. Đồng thời các từ nguồn được dịch qua từđích dựa trên từđiển song ngữ. Từ đích là một cấu trúc phức hợp với các nét lưu trữ thơng tin ngữ nghĩa và ngữ pháp tương đương, cĩ thể là từ hoặc cụm từ tiếng Việt.
- Các từ đích được gán vào cấu trúc câu đích, chỉnh lý lại cấu trúc đã nhận
được ở trên. Do phần tiếng Việt trong từđiển song ngữđược xây dựng trên VLFG, nên sau quá trình chuyển đổi từ, mơ hình nhận được hai cấu trúc cây: cấu trúc thành tố và cấu trúc chức năng. Các cấu trúc nhận được sau khi chỉnh lý cần kiểm tra ánh xạ với nhau đểđảm bảo tính đúng đắn văn phạm tiếng Việt.
Ví dụ 2:
(E): He lionizes me in Roma.
(V): *Anh ấy / đưa đi xem những cảnh lạ / tơi/ ở/ Roma.
Câu dịch trên nếu coi cụm từ “đưa đi xem những cảnh lạ“ là một cụm động từ thì khơng cĩ sai sĩt gì về cấu trúc thành tố. Tuy nhiên trong cấu trúc chức năng, cụm “đưa đi xem những cảnh lạ tơi ở Roma“ khơng tương ứng với bất cứ cấu trúc chức năng nào đề cập trong chương 4. Vì vậy phát sinh yêu cầu chỉnh sửa cấu trúc thành tố. Việc sửa cấu trúc thành tố bắt đầu bằng quá trình kiểm tra cấu trúc các lá
để tìm các bất thường (POS cĩ giá trị khác rỗng trong khi TOPIC và COMMENT rỗng). Trong trường hợp khoảng trống từ vựng “lionize” được mơ tả như trong hình 5.8, mơ hình tìm thấy một nét rỗng cĩ chức năng TOPIC, POS là NN. Để làm đầy nét này, các thành phần “anh ta”, “tơi” và “Roma” lần lượt được thử để tìm thành phần phù hợp nhất. Trong ba câu tạo ra, chỉ cĩ câu đầu cĩ cấu trúc thành tố và cấu trúc chức năng phù hợp.
a): Anh ấy / đưa /tơi /đi xem những cảnh lạ / _ / ở/ Roma b): _ đưa / Anh ấy /đi xem những cảnh lạ / tơi / ở/ Roma c): Anh ấy / đưa / Roma /đi xem những cảnh lạ / tơi / ở/ _
Dấu gạch dưới “_” chỉ vị trí của một thành phần trước khi nĩ được chuyển vị
hoặc rút gọn. Các cấu trúc thành tố tương ứng với b) và c) khơng hợp lệ do thiếu các thành phần tạo các cụm từ cịn lại.
97
Cây cú pháp tiếng Anh của ví dụ 2 cĩ dạng như 6.5:
Hình 6.5. Cấu trúc câu “He lionizes me in Roma.”
Cây cú pháp tiếng Việt sẽ phải chỉnh sửa để phù hợp với cấu trúc do khoảng trống từ vựng của từ “lionize” tạo ra. Hình 6.6 mơ tả một cây cú pháp của câu tiếng Việt.
Sự biến đổi cấu trúc ngữ pháp câu đích (hình 6.6) trong trường hợp cĩ khoảng trống từ vựng được xử lý dựa trên các thơng tin cấu trúc của cụm từ tương
đương tiếng Việt. Phép biến đổi cấu trúc cụm từ được tiến hành ngay sau khi cấu trúc câu nguồn được chuyển đổi sang cấu trúc câu đích và cĩ sự xuất hiện khoảng trống từ vựng (xem hình 6.6). Câu nhận được sau khi chuyển vị một thành phần cĩ thể khơng đảm bảo chức năng các thành phần cịn lại phù hợp văn phạm tiếng Việt. Phép kiểm tra các thành phần chức năng luơn được thực hiện sau các phép chuyển
đổi cấu trúc thành tố. He lionizes me in Roma P V P ADV N NP NP V SBAR S ADP
98
Hình 6.6. Cấu trúc câu “Anh ấy đưa tơi đi thăm cảnh lạở Roma.”
Ví dụ 3:
(E): The linesman lionizes a landscaper in Roma.
(V): *Người lính ở một đơn vị chiến đấu/ đưa đi xem cảnh lạ/ người xây dựng vườn hoa và cơng viên/ ở Roma.
Áp dụng cây cú pháp trong hình 6.6 cho ví dụ 3 dẫn tới câu dịch tiếng Việt như sau:
(V): *Người lính ở một đơn vị chiến đấu/ đưa/ người xây dựng vườn hoa và cơng viên/ đi xem cảnh lạ/_ / ở Roma.
Câu dịch này tuy sát từ nhưng khá lủng củng và cần thay được thế bằng cách rút gọn một vài thành phần, chẳng hạn như:
(V): Người lính _/ đưa/ người xây dựng _/ đi xem cảnh lạ/_ / ở Roma.
Việc xử lý các cụm từ tương đương bằng cách rút gọn một vài thành phần, một mặt làm thay đổi khơng chỉ cú pháp mà cả ngữ nghĩa và chức năng các thành phần của chính cụm từ, mặt khác sẽ làm thay đổi cấu trúc cụm từ cha, và các cấu trúc lớn hơn. Để giảm thiểu sai sĩt thơng tin khi lược bỏ các thành phần trong một cụm từ, thành phần trọng tâm của cụm từ tương đương nhất thiết phải được giữ lại.
Anh ấy đưa tơi đi thăm cảnh lạ ở Roma
PR V PR ADV N NP NP VP SBAR S ADP V N ADJ NP VP
99
Như vậy việc tổ chức các cụm từ tương đương thành một cấu trúc cú pháp - ngữ
nghĩa - chức năng sẽ giúp dịch máy xử lý được hiện tượng khoảng trống từ vựng. Tuy nhiên nếu mỗi cụm từ lại cĩ những thơng tin cần xử lý khác nhau, thì lượng tri thức ngơn ngữ lưu trữ trong từng cụm từ sẽ rất lớn và tốn nhiều cơng sức xây dựng các cấu trúc này. Luận án đề xuất một phương pháp hỗ trợ bằng cách khảo sát và phân loại các cụm từ tương đương thành các lớp. Các cụm từ cùng một lớp sẽđược xử lý giống nhau trong những cấu trúc câu đích giống nhau. Mỗi lớp sẽđược mơ tả
bằng một cấu trúc đại diện gọi là mẫu cụm từ (xem mục 5.3). Việc xử lý các cụm từ
dựa trên các mẫu cụm từ sẽ giảm bớt việc tạo các luật ràng buộc riêng cho các cụm từ lưu trữ trong từđiển Anh - Việt.
Một cách tổng quát, hoạt động của mơ hình dịch ngữ cĩ thể diễn tả gồm 5 bước như sau
1. Phân tích cấu trúc câu nguồn.
2. Chuyển đổi cấu trúc câu nguồn sang cấu trúc đích. 3. Tìm kiếm từ vựng tương ứng.
4. Nếu gặp khoảng trống từ vựng thì.
i. Tìm mẫu cụm từ của khoảng trống từ vựng.
ii. Xác định khuơn mẫu câu đích trước và sau khi chèn cụm từ
tương ứng (xem các khuơn mẫu câu tiếng Việt của Diệp Quang Ban [1] ).
iii. Nếu mẫu câu đích khơng phù hợp thì quay lại bước ii). 5. Chỉnh lại cấu trúc câu đích và quay lại bước 3 cho đến hết câu.
Mơ hình này cĩ điểm khác biệt quan trọng so với mơ hình dịch máy dựa trên tập luật thơng thường là sử dụng các mẫu cụm từ cĩ trong từđiển song ngữ như một phần tập luật. Điều này tránh được việc phải tạo các luật riêng cho cụm từ cĩ cấu trúc khác biệt, vốn chứa đựng nhiều nguy cơ rủi ro cho hệ thống (các luật này chỉ cĩ giá trị trong tình huống cụ thể của câu).
Lưu đồ hoạt động của mơ hình dịch ngữđược thể hiện ở hình 6.7 Từng cấu trúc câu nguồn được kiểm tra xem cĩ từ vựng khơng.
100
Nếu khơng cĩ từ vựng thì cấu trúc được chuyển đổi bình thường.
Nếu cĩ từ vựng thì kiểm tra xem từ vựng cĩ từ tương đương khơng. Nếu cĩ từ
tương đương thì từ vựng được chuyển đổi.
Nếu khơng cĩ từ tương đương thì quá trình xử lý khoảng trống từ vựng bắt đầu tìm mẫu cụm từ tương ứng để chọn cụm từ và chỉnh sửa cấu trúc cụm từ cũng như cấu trúc tồn câu. (hai bước mầu sẫm trong hình 6.7). Quy trình xác định một từ là khoảng trống từ vựng địi hỏi phải xác định trước hết từ loại và nghĩa của từ. Tuy nhiên do khơng đủ thơng tin ngữ nghĩa để xử lý nhập nhằng nghĩa từ, luận án giả định các từ tiếng Anh luơn chọn nghĩa tiếng Việt đầu tiên trong từ điển, và do đĩ các nghĩa khác bị bỏ qua. Đây là một giả định cĩ thể làm giảm độ chính xác của dịch máy, nhưng do kỹ thuật chọn nghĩa từ gây ra, khơng liên quan đến khoảng trống từ vựng. Phần dữ liệu phát sinh hiển nhiên là mẫu cụm từ tìm thấy trong từ điển và các cụm từ tiếng Việt tương ứng.
Khi áp dụng chỉnh lý cấu trúc câu đích, các mẫu câu cần được tuân thủ bao gồm câu đơn, câu phức và câu ghép [1]. Trong phần tiếp theo luận án tập trung xử
lý các câu đơn tiếng Việt. Các câu phức và câu ghép quá phức tạp, địi hỏi các nghiên cứu sâu hơn.
Giải thuật tổng quát (giải thuật 6.1) xử lý khoảng trống từ vựng của mơ hình gồm ba thao tác chính là thay thế, chuyển vị và lược bớt. Trong các phép xử lý trên, phép chèn một cụm từ thay cho một từ được sử dụng và tạo ra một cấu trúc phức tạp hơn từ các cấu trúc thành tố. Cấu trúc mới tạo ra cĩ thể gặp các lỗi sau: cụm từ
chèn vào khơng tương thích cú pháp do khác từ loại. Các phép biến đổi chèn, xĩa và chuyển vị sẽ xử lý các vấn đề này
101 Chuyển đổi theo luật Cấu trúc câu/ cụm từ tiếng Anh Cấu trúc có từ vựng? Còøn cấu trúc ? Kết thúc Tìm từ vựng Khoảng trống từ vựng? Tìm mẫu cụm từ Chỉnh sửa cấu trúc cụm từ Không Không Có Có Khôn g Có Hình 6.7. Hoạt động của mơ hình dịch ngữ
102 Chuyển đổi theo luật Cấu trúc câu/ cụm từ tiếng Anh Cấu trúc có từ vựng? Còøn cấu trúc ?
Cấu trúc cú pháp và câu tiếng Việt tương ứng Tìm từ vựng Khoảng trống từ vựng? Tìm mẫu cụm từ Chỉnh sửa cấu trúc cụm từ Kho âng K ho âng Có Co ù Khôn g Có Câu tiếng Anh
đã phân tích Cấu trúc Câu tiếng Anh Từ vựng tiếng Anh Từ vựng tiếng Việt Cụm từ tiếng Việt Mẫu cụm từ tiếng Việt Dòng dữ liệu Hình 6.8. Lưu đồ dịng dữ liệu của mơ hình dịch ngữ