Quá trình gán nhãn

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 31)

Quá trình gán nhãn thƣờng đƣợc thực hiện với ba bƣớc cơ bản:

- Giai đoạn tiền xử lý : Trong giai đoạn này, thực hiện phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hoặc phức tạp tùy theo tính chất của từng ngôn ngữ và quan niệm về đơn vị từ vựng. Đối với tiếng Việt, giai đoạn phân tách từ là khá phức tạp. Nếu trong tiếng Anh hay tiếng Pháp, các tự phân tách nhau bởi khoảng trắng thì với tiếng Việt thì khoảng trắng không phải là dấu hiệu để phân tách từ vì số lƣợng từ ghép trong tiếng Việt xuất hiện khá nhiều.

- Giai đoạn gán nhãn tiêm nghiệm: Trong giai đoạn này, sẽ thực hiện tìm cho mỗi từ một tập tất cả các nhãn mà nó có thể có. Tập nhãn này có thể đƣợc thu từ cơ sở dữ liệu từ điển hoặc kho văn bản gán nhãn bằng tay. Đối với các ngôn ngữ biến đổi hình thái thì ngƣời ta dựa vào hình thái để đoán nhận lớp từ loại tƣơng ứng đang xét.

- Quyết định gán nhãn: giai đoạn này sẽ loại bỏ nhập nhằng, quyết định lựa chọn cho mỗi từ loại một nhãn phù hợp nhất trong tập nhãn tiên nghiệm. Hiện nay, các phƣơng pháp ngƣời ta thƣờng dùng để quyết định nhãn là phƣơng pháp Brill [7] và các phƣơng pháp xác suất [8]. Ngoài ra còn sử dụng các hệ thống nhƣ: mạng nơ-ron [9], các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng [11].

Quy trình thực hiện gán nhãn là tƣơng tự nhau, tuy nhiên mỗi bƣớc yêu cầu những kiến thức và có những đặc trƣng riêng. Trƣớc tiên, những ngƣời gán nhãn cần đƣợc huấn luyện về cách gán nhãn, tập nhãn, và cách sử dụng công cụ. Sau đó họ sẽ gán nhãn cho từng phần của ngữ liệu thô. Quá trình gán nhãn đƣợc thể hiện trong Hình 2.1. Mỗi ngƣời làm có một ngƣời review (kiểm tra) và sửa lỗi. Những trƣờng hợp không chắc chắn thì ghi lại để thảo luận với nhóm thiết kế. Ngƣời review đƣợc yêu cầu có hiểu biết sâu về ngôn ngữ học, biết phê phán khi làm việc. Yêu cầu nhóm phải có tinh thần làm việc nhóm cao vừa để gán nhãn

chính xác vừa để giúp cải tiến tài liệu hƣớng dẫn.

Hình 2.1: Quá trình gán nhãn từ loại Khi gán nhãn, ngƣời làm dữ liệu cần:

- Hiểu đúng câu trƣớc khi phân tích, nếu cần thì biến đổi câu để hiểu đúng nó (thêm từ, bớt từ, thay thế từ, đổi thứ tự từ) xem câu thay đổi ý nghĩa nhƣ thế nào. Để làm đƣợc điều này, yêu cầu ngƣời gán nhãn phải có kiến thức sâu về ngữ pháp, ngôn ngữ học.

- Nhận dạng mẫu (đặc biệt là động từ): chẳng hạn nếu ta đã biết các mẫu động từ đi với danh từ, động từ đi với cụm giới từ, động từ đi với mệnh đề thì cũng là căn cứ ra quyết định. Tức là phải nắm rõ qui ƣớc gán nhãn.

Khi review, ngƣời làm dữ liệu cần chú ý kiểm tra các điểm sau:

- Sai tách từ không? Trong tiếng Việt, phần việc tách từ khá phức tạp, nó không hoàn toàn dựa trên khoảng trắng. Tách từ sai sẽ dẫn đến gán nhãn sai.

Sửa tài liệu hƣớng dẫn Ngữ liệu thô Ngữ liệu chƣa review Gán nhãn Review và sửa Treebank Ghi chú công việc Tài liệu đã cập nhật Kho ngữ liệu

Ví dụ: Hải vẫn bình thản như không.

Từ như không nếu tách thành hai từ đơn sẽ đƣợc gán nhãn: (C nhƣ)(R không). Nhƣng trong văn cảnh này, nó là từ ghép (X nhƣ_không) ý nghĩa: chỉ thái độ tỏ ra nhƣ chẳng có điều gì khác thƣờng xảy ra.

- Sai từ loại không? Đảm bảo rằng tất cả các từ loại đều đƣợc gán nhãn đúng, chủ yếu tập trung ở những từ có nhiều vai trò. Ví dụ : từ đá trong câu con ngựa đá đá con ngựa đá.

- Có lỗi liên kết cụm từ không? Trong cụm từ xác định chính xác từ nào là thành phần trung tâm, phần phụ của nó là những phần nào. Khi xác định đƣợc thành phần trung tâm thì nhãn của cụm từ sẽ đƣợc gán theo nhãn của từ trung tâm.

- Có sai nhãn cú pháp nào không? Kiểm tra các nhãn SUB, DOB, ... đƣợc đặt đúng chƣa.

- Có thiếu gì không? (nhãn H, nhãn chức năng trạng ngữ, v.v.)

Nhãn đƣợc gán phải đƣợc sự đồng thuận cao của nhóm, thông thƣờng khi các nhãn nhận đƣợc sự đồng thuận trên 90% thì nhãn đó đƣợc xác định.

CHƢƠNG 3: PHƢƠNG PHÁP PHÁT HIỆN LỖI DICKINSON

Phƣơng pháp phát hiện lỗi của Dickinson dựa trên tƣ tƣởng: Luật sau khi đƣợc trích xuất từ dữ liệu, thống kê thấy có những luật xuất hiện rất nhiều lần và có những luật xuất hiện rất ít. Theo Dickinson, những luật ít xuất hiện là những luật có nguy cơ chứa lỗi cao. Từ đó, Dickinson đƣa ra các khái niệm và phƣơng pháp tính điểm cho từng luật để phát hiện ra những luật ít xuất hiện – những luật đƣợc đánh giá có nguy cơ chứa lỗi cao.

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 31)