Chuỗi quan sát (Observation
sequence) Gán nhãn dữ liệu theo dạng IOB2
thời o tiết o vũng b-location tàu i-location ngày b-datetime mai i-datetime thế o nào o
Huấn luyện và ước lượng tham số trong mô hình MaxEnt là tìm kiếm một véc tơ trọng số tối ưu nhằm cực đại hóa entropy hoặc cực đại hóa hàm log-likehood đối với tập dữ liệu D. Bởi vì hàm log-likehood là hàm lồi nên việc tìm kiếm tối ưu toàn cục được đảm bảo. Các nghiên cứu gần đây chỉ ra rằng những phương pháp quasi-Newton như e L–BFGS [14] hiệu quả hơn so với các phương pháp khác. Sau khi được huấn luyện, mô hình MaxEnt sẽ được sử dụng dự đoán các lớp nhãn cho dữ liệu mới. Cho một đối tượng dữ liệu x mới, dự đoán nhãn sẽ cho công thức như sau:
3.3.2. Lựa chọn thuộc tính
Nếu phương pháp học máy được áp dụng cho việc nhận dạng thực thể tên thì các thuộc tính là các yếu tố giống như giác quan của con người, giúp con người dễ dàng nhận biết mọi vật xung quanh. Do đó việc lựa chọn thuộc tính là rất quan trọng và là tính năng cần thiết không thể thiếu trong hệ thống nhận dạng thực thể tên. Các thuộc tính tốt được chọn thì hiệu năng của hệ thống nhận dạng thực thể tên sẽ càng cao. Tôi đã cố gắng kết hợp trong mô hình của mình một số các thuộc tính có giá trị cao, độ phân biệt rõ rệt. Một số kiểu thuộc tính được tôi sử dụng trong nghiên cứu của mình như: n-grams, biểu thức chính quy, từ điển, và sự kết hợp giữa từ điển và biểu thức chính quy được mô tả chi tiết như các bảng dưới đây.