- Viết hoa chữ cái đầu tiên của tên riêng, tên người, địa danh.
2.2.1. Đặc trưng dữ liệu được sử dụng và các nhãn phân loạ
Dựa trên quá trình quan sát và phân tích, ta nhận thấy những dữ liệu có chứa thông tin về thời gian, địa điểm thường có những đặc trưng, đặc điểm sau mà ta có thể sử dụng:
• Từ (từ đơn/ từ ghép): Trong Tiếng Việt, từ được định nghĩa là một đơn vị ngôn ngữ, cấu tạo bởi một hoặc hai tiếng trở lên. Nhiều tiếng khi đi cùng nhau có thể tạo thành một từ có ý nghĩa hoàn toàn khác với khi các tiếng này đứng một cách riêng biệt (ví dụ như “đi chơi” – “đi”/ “chơi”, “nghiên cứu” – “nghiên”/ “cứu”, “giải thích” – “giải”/ “thích”, “ngày mai” – “ngày”/ “mai”...). Do đó, việc xác định các từ xuất hiện trong văn bản là một trong những công việc vô cùng quan trọng hỗ trợ cho giai đoạn xử lý sau này.
• Từ loại: Ngoại trừ các câu đặc biệt, câu rút gọn thì mọi câu văn đều phải tuân thủ và được xây dựng trên các cấu trúc về ngữ pháp, chính tả. Dựa vào đặc điểm đó, ta sẽ sử dụng yếu tố từ loại của mỗi từ nhằm xác định các đối tượng thời gian, địa điểm cần tìm. Các loại từ trong Tiếng Việt gồm có: danh từ, động từ, tính từ, trạng từ, giới từ,...
• Có tồn tại trong danh sách địa điểm đã được xây dựng? Như đã nhắc tới trong chương 2, ta trực tiếp xây dựng một cây cấu trúc dữ liệu chứa danh sách các địa điểm, quán ăn, khách sạn... nhằm hỗ trợ lưu trữ và tìm kiếm một cách nhanh
chóng, bỏ qua các xử lý thừa về sau, tiết kiệm thời gian nhận dạng đối tượng địa điểm trong câu.
• Hình thái của từ (viết hoa/ viết thường): Dựa vào các quy ước về chính tả, ta thấy các từ được viết hoa thường có tỉ lệ cao là các danh từ, danh từ riêng,.. Tuy không hoàn toàn chính xác xong đặc trưng này sẽ hỗ trợ khá tốt trong việc tìm kiếm và nhận dạng đối tượng địa điểm.
Nhãn phân loại (output class): là các nhãn dùng để đánh dấu và phân loại dữ liệu, là kết quả cuối cùng ta sẽ thu được sau CRF, từ đó ta có thể tìm ra được các đối tượng thời gian, địa điểm trong văn bản.
Các nhãn phân loại được viết theo định dạng IOB2, ví dụ:
Hình 2.2. Ví dụ sử dụng nhãn phân loại
Trong đồ án có sử dụng 9 nhãn phân loại khác nhau:
B-LOC (begin location): từ bắt đầu đối tượng địa điểm.
I-LOC (inside location): từ nằm trong đối tượng địa điểm.
B-DATE (begin date): từ bắt đầu đối tượng thời gian chỉ ngày tháng.
I-DATE (inside date): từ nằm trong đối tượng thời gian chỉ ngày tháng.
B-CLK (begin clocktime): từ bắt đầu đối tượng thời gian đồng hồ (thời gian tuyệt đối), là thời gian ta có thể sử dụng để tính toán ngay được.
I-CLK (inside clocktime): từ nằm trong đối tượng thời gian đồng hồ.
B-RT (begin relative time): từ bắt đầu đối tượng thời gian tương đối (các thời gian này cần phải được tính toán để có thể tìm ra thời gian tuyệt đối).
I-RT (inside relative time): từ nằm trong đối tượng thời gian tương đối.
O (other): các đối tượng khác mà ta không cần xét tới, không gây ảnh hưởng tới kết quả trích rút.