Quy trình xây dựng Corpus

Một phần của tài liệu Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt (Trang 55 - 57)

Như đã trình bày ở trên, có hai hướng khi thiết kế một corpus : một là quan

tâm và tính toán đến sự cân bằng của corpus, và một là tập trung vào số lượng mà

không quan tâm đến sự cân bằng. Tuỳ theo hai hướng xây dựng này mà các corpus sẽ có cấu trúc và quá trình xây dựng khác nhau.

Khi xây dựng các corpus hẹp, thường trải qua các quá trình sau : 1. Tính toán, thiết kế corpus

Đây là quá trình quan trọng nhất quyết định đặc điểm, tính chất của corpus.

Trước đó, ta phải kiểm tra những điều sau : (a) mục đích sử dụng corpus, (b) kích

thức corpus hay số lượng ngôn ngữ, (c) các chủng loại văn bản được chọn, (d)

phương pháp phân tầng, phương pháp tính tỉ suất cấu thành, (e) độ dài các văn bản sẽ lấy, (f) bản quyền tác giả, phương pháp công khai, và nhiều yếu tố khác.

2. Lấy mẫu (sampling)

Từ tập hợp mẫu ta chọn ra lần lượt từng thành phần (là các văn bản). Quá trình này phải tuân theo tỉ suất cấu thành được thiết lập từ bước 1 để xác định độ dài văn bản, số lượng văn bản ở mỗi tầng. Sau khi xác định được các yếu tố này, người ta thường dùng phương pháp chọn ngẫu nhiên các mẫu để xây dựng các tầng.

3. Xây dựng hình thức (Formalization)

Quá trình gắn thêm các tag cần thiết cho các mẫu. 4. Chú thích (annotation)

Bổ xung thêm thông tin về hình thái, phân tách từ, cấu trúc câu …

Chú thích là quá trình sửa đổi các nội dung gốc (tagging ) hay loại bỏ các nội dung đã thêm vào (tag). Vế thứ 2 có nghĩa là khi ta loại bỏ các chú thích, ta sẽ thu lại được nội dung gốc ban đầu. Nói cách khác, quá trình chú thích không làm mất đi nội dung gốc.

Có hai dạng chú thích chính:

- Chú thích được ghi cùng nội dung. - Chú thích tách biệt khỏi nội dung. Chúng ta sẽ xem xét ví dụ dưới đây : “hôm nay trời đẹp.”

Với dạng 1, chú thích ghi cùng nội dung, ta sẽ có : <N>hôm nay</N> <N>trời</N> <A>đẹp</A>.

Nằm trong cụm <N> </N> là danh từ, <A> </A> là tính từ.

Có thể thấy, khi ta bỏ các chú thích đi, ta vẫn sẽ nhận lại được câu văn ban

đầu.

Với dạng 2, chú thích tách biệt khỏi nội dung, ta sẽ có :

<start=0 end=16><N start=0 end=7><N start=8 end=12><A start=13 end=16>

Đối với các chú thích ngữ học, sẽ có nhiều thông tin hơn được đưa vào. Với mỗi dạng corpus (có lẽ) sẽ có một dạng tag khác nhau, vì thế nên đọc kĩ các tài liệu liên quan đến corpus để thao tác được chính xác.

5. Sửa, bổ xung thêm các văn bản, thông tin liên quan

Các thông tin liên quan như quyền tác giả, giới thiệu, phương pháp, nguồn thông tin, …

Một phần của tài liệu Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt (Trang 55 - 57)