Ứng dụng sử dụng thư viện twitter_nlp [2] để thực hiện gán nhãn từ loại trong văn bản POS và nhận dạng thực thế có tên riêng NER trong nội dung tweet. Để gán nhãn từ loại cho từng thành phần trong nội dung tweet thư viện twitter_nlp sử dụng công cụ MALLET để áp dụng mô hình trường ngẫu nhiên có điều kiện áp dụng trên từ điển 800 tweet có sẵn kết hợp với 40.000 token được trích xuất và gán nhãn từ lịch sử chat IRC và 50.000 token POS đã được gán nhãn từ từ điển Penn TreeBank.
Ví dụ đầu vào là một câu tweet “Mark and John are working at Google in 20/11/2018”
Tiếp tục chuyển sang cú pháp IOB
Thực hiện nhận dạng thực thể có tên
Như vậy từ một câu tweet “Mark and John are working at Google in 20/11/2018” chúng ta thu được 3 thực thể là “Mark” , “John” và “Google”.
Tiếp theo để trích xuất thông tin thời gian chúng ta xây dựng tiếp hàm xử lý trích xuất thời gian sử dụng thư viện nltk_contrib
Với ví dụ trên qua xử lý sẽ thu được IN:
"Mark and John are working at Google in 20/11/2018." OUT:
Mark/B-ENTITY/NNP and/O/CC John/B-ENTITY/NNP are/O/VBP working/O/VBG at/O/IN Google/B-ENTITY/NNP in/O/IN 20/11/2018/O/CD
IN:
" Mark and John are working at Google in 20/11/2018." OUT:
Mark/B-ENTITY and/O John/B-ENTITY are/O working/O at/O Google/B-ENTITY in/O 20/11/2018/O
IN:
" Mark and John are working at Google in 20/11/2018." OUT:
Mark/B-person and/O John/B-person are/O working/O at/O Google/B-company in/O 20/11/2018/O
IN:
" Mark and John are working at Google in 20/11/2018." OUT:
Như vậy thông qua quá trình xử lý, từ một tweet đầu vào ta sẽ trích xuất được sự kiện
Entity Event Phase Date
Mark, John, Google
working 20/11/2018