Cách tiếp cận học máy để giải quyết bài toán nhận- 123docz.net

2. Khái niệm về nhận dạng thực thể và các cách tiếp cận

2.1. Cách tiếp cận học máy để giải quyết bài toán nhận dạng thực thể

Được giới thiệu vào năm 1992, do Vladimir Vapnik, Bernhard Boser và Isabelle Guyon đề xuất và từ đó trở nên phổ biến. Đây là phương pháp phân lớp dựa trên lý thuyết thống kê của Vapnik và Alexei Chervonenkis (1960).

Các định nghĩa về học máy:

→ Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [Simon, 1983]

→ Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997]

→ Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin, 2004]

Hình 3.2: Quá trình học máy

Hình 2.1.2 là mô hình chung cho quá trình học máy mà hầu hết các hệ thống học máy hiện nay đều có. Cụ thể từng giai đoạn của quá trình như sau:

Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 33  Tập học (Training set): chứa những dữ liệu ban đầu được các tri thức

chuyên gia thao tác bằng tay.

 Tập tối ưu (Validation set): chứa những dữ liệu d ng để cải tiến hiệu năng cho hệ thống.

 Tập thử nghiệm (Test set): là tập dữ liệu cần phân lớp (đối với bài toán phân lớp), các kết quả đầu ra khác (với những bài toán dự đoán/ hồi quy).

 Huấn luyện hệ thống: là bước đưa ra những đặc trưng nổi bật, cần thiết cho bài toán.

 Tối ƣu hóa: là kết quả sau khi xử lý tập tối ưu, d ng để bổ sung cho tập học nhằm tăng hiệu năng hệ thống.

 Thử nghiệm hệ thống: là bước xử lý tập thử nghiệm (Test set) nêu trên.

Một vấn đề quan trọng nữa của học máy là xác định được hàm mục tiêu và cách biểu diễn hàm mục tiêu (ví dụ: hàm đa thức, tập luật, cây quyết định, mạng nơ- ron nhân tạo...).

Có nhiều phương pháp học máy đã được phát triển và có kết quả tốt khi giải quyết bài toán nhận dạng thực thể, có thể kể đến như: phương pháp học máy với vectơ hỗ trợ - SVM, Conditional Random Fields – CRF... Tuy nhiên để có được kết quả tốt, các phương pháp học máy đều cần tập học (Training set) có độ chính xác cao. Với yêu cầu trích rút ra các thông tin như: mô tả kinh nghiệm, chuyên ngành, yêu cầu kinh nghiệm... trong mô tả của công việc, việc chuẩn bị tâp học là khó khăn, đòi hỏi nhiều công sức. Do đó, trong nội dung luận văn này tôi đã không lựa chọn phương pháp học máy để áp dụng cho module nhận dạng thực thể của bài toán hệ gợi ý công việc, thay vào đó là cách tiếp cận thủ công – sử dụng tập luật. Trong phần tiếp theo, tôi sẽ trình bày cách tiếp cận thủ công để giải quyết bài toán nhận dạng thực thể sử dụng module JAPE của công cụ GATE.

Cách tiếp cận học máy để giải quyết bài toán nhận dạng thực thể

Tổng quan hệ thống trích rút thông tin

Trích rút yêu cầu về kinh nghiệm