Ví dụ gán nhãn cho các câu theo định dạng IOB2

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 49)

Chuỗi quan sát (Observation

sequence) Gán nhãn dữ liệu theo dạng IOB2

thời o tiết o vũng b-location tàu i-location ngày b-datetime mai i-datetime thế o nào o

Huấn luyện và ước lượng tham số trong mô hình MaxEnt là tìm kiếm một véc tơ trọng số tối ưu nhằm cực đại hóa entropy hoặc cực đại hóa hàm log-likehood đối với tập dữ liệu D. Bởi vì hàm log-likehood là hàm lồi nên việc tìm kiếm tối ưu toàn cục được đảm bảo. Các nghiên cứu gần đây chỉ ra rằng những phương pháp quasi-Newton như e L–BFGS [14] hiệu quả hơn so với các phương pháp khác. Sau khi được huấn luyện, mô hình MaxEnt sẽ được sử dụng dự đoán các lớp nhãn cho dữ liệu mới. Cho một đối tượng dữ liệu x mới, dự đoán nhãn sẽ cho công thức như sau:

3.3.2. Lựa chọn thuộc tính

Nếu phương pháp học máy được áp dụng cho việc nhận dạng thực thể tên thì các thuộc tính là các yếu tố giống như giác quan của con người, giúp con người dễ dàng nhận biết mọi vật xung quanh. Do đó việc lựa chọn thuộc tính là rất quan trọng và là tính năng cần thiết không thể thiếu trong hệ thống nhận dạng thực thể tên. Các thuộc tính tốt được chọn thì hiệu năng của hệ thống nhận dạng thực thể tên sẽ càng cao. Tôi đã cố gắng kết hợp trong mô hình của mình một số các thuộc tính có giá trị cao, độ phân biệt rõ rệt. Một số kiểu thuộc tính được tôi sử dụng trong nghiên cứu của mình như: n-grams, biểu thức chính quy, từ điển, và sự kết hợp giữa từ điển và biểu thức chính quy được mô tả chi tiết như các bảng dưới đây.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 49)

Tải bản đầy đủ (PDF)

(74 trang)