Quá trình gán nhãn

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt 04 (Trang 31 - 34)

CHƢƠNG 2 : GIỚI THIỆU VỀ TREEBANK

2.2. Treebank tiếng Việt

2.2.4. Quá trình gán nhãn

Quá trình gán nhãn thƣờng đƣợc thực hiện với ba bƣớc cơ bản:

- Giai đoạn tiền xử lý : Trong giai đoạn này, thực hiện phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hoặc phức tạp tùy theo tính chất của từng ngơn ngữ và quan niệm về đơn vị từ vựng. Đối với tiếng Việt, giai đoạn phân tách từ là khá phức tạp. Nếu trong tiếng Anh hay tiếng Pháp, các tự phân tách nhau bởi khoảng trắng thì với tiếng Việt thì khoảng trắng khơng phải là dấu hiệu để phân tách từ vì số lƣợng từ ghép trong tiếng Việt xuất hiện khá nhiều.

- Giai đoạn gán nhãn tiêm nghiệm: Trong giai đoạn này, sẽ thực hiện tìm cho mỗi từ một tập tất cả các nhãn mà nó có thể có. Tập nhãn này có thể đƣợc thu từ cơ sở dữ liệu từ điển hoặc kho văn bản gán nhãn bằng tay. Đối với các ngơn ngữ biến đổi hình thái thì ngƣời ta dựa vào hình thái để đốn nhận lớp từ loại tƣơng ứng đang xét.

- Quyết định gán nhãn: giai đoạn này sẽ loại bỏ nhập nhằng, quyết định lựa chọn cho mỗi từ loại một nhãn phù hợp nhất trong tập nhãn tiên nghiệm. Hiện nay, các phƣơng pháp ngƣời ta thƣờng dùng để quyết định nhãn là phƣơng pháp Brill [7] và các phƣơng pháp xác suất [8]. Ngồi ra cịn sử dụng các hệ thống nhƣ: mạng nơ-ron [9], các hệ thống lai sử dụng kết hợp tính tốn xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng [11].

Quy trình thực hiện gán nhãn là tƣơng tự nhau, tuy nhiên mỗi bƣớc yêu cầu những kiến thức và có những đặc trƣng riêng. Trƣớc tiên, những ngƣời gán nhãn cần đƣợc huấn luyện về cách gán nhãn, tập nhãn, và cách sử dụng cơng cụ. Sau đó họ sẽ gán nhãn cho từng phần của ngữ liệu thơ. Q trình gán nhãn đƣợc thể hiện trong Hình 2.1. Mỗi ngƣời làm có một ngƣời review (kiểm tra) và sửa lỗi. Những trƣờng hợp khơng chắc chắn thì ghi lại để thảo luận với nhóm thiết kế. Ngƣời review đƣợc yêu cầu có hiểu biết sâu về ngơn ngữ học, biết phê phán khi làm việc. Yêu cầu nhóm phải có tinh thần làm việc nhóm cao vừa để gán nhãn

chính xác vừa để giúp cải tiến tài liệu hƣớng dẫn.

Hình 2.1: Quá trình gán nhãn từ loại Khi gán nhãn, ngƣời làm dữ liệu cần:

- Hiểu đúng câu trƣớc khi phân tích, nếu cần thì biến đổi câu để hiểu đúng nó (thêm từ, bớt từ, thay thế từ, đổi thứ tự từ) xem câu thay đổi ý nghĩa nhƣ thế nào. Để làm đƣợc điều này, yêu cầu ngƣời gán nhãn phải có kiến thức sâu về ngữ pháp, ngơn ngữ học.

- Nhận dạng mẫu (đặc biệt là động từ): chẳng hạn nếu ta đã biết các mẫu động từ đi với danh từ, động từ đi với cụm giới từ, động từ đi với mệnh đề thì cũng là căn cứ ra quyết định. Tức là phải nắm rõ qui ƣớc gán nhãn.

Khi review, ngƣời làm dữ liệu cần chú ý kiểm tra các điểm sau:

- Sai tách từ không? Trong tiếng Việt, phần việc tách từ khá phức tạp, nó khơng hồn tồn dựa trên khoảng trắng. Tách từ sai sẽ dẫn đến gán nhãn sai.

Sửa tài liệu hƣớng dẫn Ngữ liệu thô Ngữ liệu chƣa review Gán nhãn Review và sửa Treebank Ghi chú công việc Tài liệu đã cập nhật Kho ngữ liệu

Ví dụ: Hải vẫn bình thản như khơng.

Từ như không nếu tách thành hai từ đơn sẽ đƣợc gán nhãn: (C nhƣ)(R

không). Nhƣng trong văn cảnh này, nó là từ ghép (X nhƣ_khơng) ý nghĩa: chỉ thái độ tỏ ra nhƣ chẳng có điều gì khác thƣờng xảy ra.

- Sai từ loại không? Đảm bảo rằng tất cả các từ loại đều đƣợc gán nhãn đúng, chủ yếu tập trung ở những từ có nhiều vai trị. Ví dụ : từ đá trong câu con

ngựa đá đá con ngựa đá.

- Có lỗi liên kết cụm từ khơng? Trong cụm từ xác định chính xác từ nào là thành phần trung tâm, phần phụ của nó là những phần nào. Khi xác định đƣợc thành phần trung tâm thì nhãn của cụm từ sẽ đƣợc gán theo nhãn của từ trung tâm.

- Có sai nhãn cú pháp nào khơng? Kiểm tra các nhãn SUB, DOB, ... đƣợc đặt đúng chƣa.

- Có thiếu gì khơng? (nhãn H, nhãn chức năng trạng ngữ, v.v.)

Nhãn đƣợc gán phải đƣợc sự đồng thuận cao của nhóm, thơng thƣờng khi các nhãn nhận đƣợc sự đồng thuận trên 90% thì nhãn đó đƣợc xác định.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt 04 (Trang 31 - 34)