1.4 .Trích chọn thơng tin
3.3. Một số phương pháp nhận dạng thực thể
3.3.1. Phương pháp dựa trên luật, bán giám sát
Hệ thống dựa trên luật bao gồm một tập các luật cơ bản (Nếu-Thì), tập các sự vật (facts), bộ thơng dịch (interpreter) sử dụng tập luật để sinh ra các sự vật. Sử
dụng phương pháp dựa trên luật, đầu tiên chúng ta xây dựng một tập ban đầu các
luật, các thực thể. Qua quá trình học dựa trên bán giám sát và kỹ thuật bootstrapping, chúng ta mở rộng tập thực thể cũng như tập luật ban đầu.
Học bán giám sát [28] được hiểu là phương pháp học máy sử dụng cả hai loại dữ liệu gán nhãn và chưa gán nhãn cho quá trình huấn luyên. Phương pháp này kết hợp được ưu điểm, giảm bớt những nhược điểm của phương pháp học cĩ giám sát và học khơng giám sát. Các thuật tốn bán giám sát cĩ nhiệm vụ chính là mở rộng một tập dữ liệu huấn luyện nhỏ ban đầu thành tập dữ liệu lớn hơn.
Một kỹ thuật chính của phương pháp học bán giám sát là bootstrapping. Kỹ thuật này bao gồm cĩ giám sát ở mức độ nhỏ, từ một tập dữ liệu ban đầu (cịn gọi là tập seed) bắt đầu q trình huấn luyện. Ví dụ một hệ thống nhận dạng tên bệnh, lúc đầu yêu cầu một tập mẫu nhỏ các tên bệnh. Sau đĩ, hệ thống tìm kiếm các câu chứa các tên bệnh này và cố gắng tìm kiếm các thơng tin ngữ cảnh chung cho một số tên bệnh trong tập này (ví dụ như cĩ sự tương đồng về thơng tin ngữ cảnh trong từng 5 mẫu tên bệnh). Sau đĩ từ các thơng tin ngữ cảnh này, hệ thống sẽ tìm các thể hiện của tên bệnh xuất hiện trong các ngữ cảnh tương tự. Quá trình huấn luyện này sẽ được lặp đi lặp lại để tìm ra các ví dụ mới, cũng như khai thác được các thơng tin ngữ cảnh mới cĩ liên quan. Bằng cách lặp đi lặp lại quá trình này, một số lượng lớn các tên bệnh và một số lượng lớn các thơng tin ngữ cảnh sẽ được thu thập lại.