Phõn tớch nguyờn nhõn gõy lỗi đảo trật tự từ

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 110 - 112)

5 Ảnh hưởng của cõy cỳ phỏp phụ thuộc đến chất lượng dịch

5.3 Ảnh hưởng của lỗi phõn tớch cỳ phỏp phụ thuộc tới chất lượng

5.3.3 Phõn tớch nguyờn nhõn gõy lỗi đảo trật tự từ

Dữ liệu chuẩn (gold data) là bộ cõu tiếng Việt được xõy dựng bằng tay sử dụng trong bộ cụng cụ phõn tớch cỳ phỏp phụ thuộc tiếng Việt [77], [78].

Lỗi phõn tớch cỳ phỏp phụ thuộc bởi Pos-tag

Từ bộ dữ liệu chuẩn, chỳng tụi quan sỏt thống kờ về mặt dữ liệu như trong hỡnh 5.5 đối với đối sỏnh với dữ liệu cõy phõ tớch phụ thuộc được xõy dựng và tiến hành phõn tớch. Cỏc lỗi quan trọng phổ biến gõy ra ảnh hưởng tới đảo trật tự từ, làm giảm chất lượng dịch là lỗi về mặt từ loại. Bao gồm:

• Lỗi phụ thuộc: từ loại khụng phải là một phụ thuộc độc lập với nỳt cha tương ứng.

• Lỗi nỳt cha: từ loại sai khi được nhận biết như nỳt cha.

Cỏc lỗi này được mụ tả như trong vớ dụ ở hỡnh 5.6. Nguyờn nhõn chớnh của lỗi đảo trật tự từ là nhận biết nỳt cha hoặc cỏc phụ thuộc sai.

108

Hỡnh 5.5: Bảng thống kờ độ chớnh xỏc phõn tớch cỳ phỏp phụ thuộc tiếng Việt sử dụng cụng cụ phõn tớch cỳ phỏp phụ thuộc JPTDP.

Lỗi phõn tớch cỳ phỏp phụ thuộc do sai nhón phụ thuộc

Nguyờn nhõn khỏc gõy ra đảo trật tự từ sai là do xỏc định sai kiểu (loại) phụ thuộc. Cỏc lỗi do loại phụ thuộc gõy ảnh hưởng nhiều nhất là gốc (root). Cỏc lỗi này được mụ tả như trong vớ dụ ở hỡnh 5.7. Lỗi sai do phõn tớch dẫn đến xỏc định cõy phõn tớch phụ thuộc sai, đõy cũng là lỗi quan trọng ảnh hưởng tới việc sắp xếp lại trật tự từ, làm giảm chất lượng dịch. Trong việc xõy dựng cỏc đặc trưng dựa trờn cõy, xõy dựng mụ hỡnh, cỏc mẫu sai gõy ra cỏc lỗi trong quỏ trỡnh huấn luyện mụ hỡnh, làm giảm chất lượng dự đoỏn khi đi qua khung làm việc của bài toỏn sắp xếp lại.

Hỡnh 5.6: Vớ dụ về lỗi từ loại khi so sỏnh dữ liệu thống kờ giữa cõy được sinh ra với cõy được sinh từ dữ liệu chuẩn.

Hỡnh 5.7: Vớ dụ về lỗi do xỏc định sai loại phụ thuộc nỳt gốc khi so sỏnh dữ liệu thống kờ giữa cõy được sinh ra với cõy được sinh từ dữ liệu chuẩn.

đủ lớn để làm nguồn tài nguyờn cho bài toỏn dịch cũng như cỏc bài toỏn khỏc trong vấn đề xử lý ngụn ngữ.

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 110 - 112)

Tải bản đầy đủ (PDF)

(146 trang)