Trích xuất thời gian

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 41 - 42)

Thời gian và ngày tháng là những thành phần quan trọng trong việc trả lời các câu hỏi liên quan đến sự kiện. Để diễn giải những thông tin về thời gian thì chúng ta cần sử dụng biểu thức biểu diễn thời gian (temporal expression) đã được chuẩn hóa và chuyển sang những dạng dữ liệu có thể hiểu được. Biểu thức thời gian là những thành phần tham chiếu đến những khoảng thời gian chính xác cụ thể hoặc thời gian tương đối. Với những biểu diễn thời gian cụ thể có thể dễ dàng ánh xạ trực tiếp vào một ngày hay thời gian xác định. Trong khi đó biểu diễn thời gian tương đối có thể ánh xạ đến một thời điểm xác định dựa vào một vào điểm tham chiếu khác ví dụ như “Còn một tuần nữa kể từ thứ tư cuối cùng”. Cuối cùng là biểu diễn thời lượng để thể hiện khoảng thời gian theo mức độ chi tiết khác nhau như giây, phút, giờ, tuần, thế kỷ…

Biểu diễn chính xác Biểu diễn tương đối Biểu diễn thời lượng

April 24, 2018 yesterday four hours

The summer of ’88 next semester three weeks

11:15 AM last quarter six days

Biểu diễn thời gian là các cấu trúc ngữ pháp có các từ kích hoạt tạm thời ở phía trước chúng. Từ kích hoạt có thể là danh từ, danh từ riêng, tính từ, kích hoạt từ vựng và trạng từ; biểu thức thời gian đầy đủ bao gồm các phép chiếu cụm từ của chúng: cụm danh từ, cụm tính từ và cụm từ trạng từ

Phân loại Ví dụ

Danh từ Morning, noon, night, winter

Danh từ riêng January, Monday, Tet

Tính từ recent, past, annual, former

Trạng từ hourly, daily, monthly, yearly

Nhiệm vụ nhận dạng biểu thức thời gian là tìm điểm bắt đầu và kết thúc của tất cả các khoảng văn bản tương ứng với các biểu thức thời gian như vậy. Đối với phương pháp nhận dạng biểu thức thời gian dựa trên quy tắc sử dụng các tầng của ngôn ngữ hình thức để nhận ra các mẫu ở mức độ phức tạp tăng dần. Các thẻ đã được gán được

gán nhãn lần lượt rồi mở rộng ra các cụm từ dựa trên mô hình chứa từ kích hoạt. Với phương pháp tiếp cận gắn nhãn lần lượt thì cũng tuân theo mô hình gán nhãn IOB để đánh dấu điểm bắt đầu, bên trong và bên ngoài của biểu thức thời gian.

Hình 2.9 Biểu thức thời gian được gắn nhãn IOB

Sau khi được xác định biểu thức thời gian sẽ được chuẩn hóa để ánh xạ cụ thể vào một thời điểm về mặt thời gian hay thời lượng. Những thời điểm này chính là ngày tháng, thời gian trong ngày. Biểu diễn thời lượng ngoài chứa thông tin về độ dài còn có thể bao gồm thông tin về điểm bắt đầu và điểm kết thúc. Xét biểu thức thời gian “July 2, 2018” thì biểu diễn theo chuẩn ISO “YYYY-MM-DD” là “2018-07- 02”. Dưới đây là tổng hợp một số dạng biểu thức thời gian đã được chuẩn hóa

Bảng 2.3: Biểu thức thời gian

Đơn vị Mô hình Ví dụ

Thông tin ngày đầy đủ YYYY-MM-DD 2018-07-30

Tuần YYYY-Wnn 2018 –W12

Thời gian 24h HH:MM:SS 18:15:22

Quý Qn 2018-Q3

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(65 trang)