Áp dụng phương pháp lấy mẫu cĩ lựa chọn vào RAPIER

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 68 - 73)

Để thực thi lấy mẫu cĩ lựa chọn đối với RAPIER, hai quyết định cơ bản về thiết kế cần được đưa ra: lựa chọn giữa lấy mẫu tuần tự và lấy mẫu theo lơ và lựa chọn giữa lấy mẫu dựa trên hội đồng và lấy mẫu dựa trên độ khơng chắc chắn.

Lấy mẫu theo lơ là lựa chọn tốt hơn vì phương pháp này lấy mẫu theo lơ là hiệu quả hơn loại bỏ một cách hiệu quả hơn các chi phí tạo chú thích khơng cần thiết. Việc xem xét tất cả các ví dụ “ứng cử viên” và chọn các ví dụ tốt nhất cĩ khả năng làm tăng hiệu năng hơn là xem xét lần lượt từng ví dụ rồi chấp nhận hoặc loại bỏ nĩ. Sử dụng lấy mẫu theo lơ cũng tránh được sự cần thiết phải thiết lập các ngưỡng để xác định xem hệ thống là đủ chắc chắn rằng một ví dụ được xử lý chính xác. Hệ thống sẽ lựa chọn để học các ví dụ mà ít chắc chắn nhất (đối với lấy mẫu dựa trên độ khơng chắc chắn) hoặc cĩ nhiều bất đồng nhất (đối với lấy mẫu dựa trên hội đồng) mà khơng cần quan tâm là thực tế độ chắc chắn đĩ là bao nhiêu hay cĩ bao nhiêu bất đồng.

Để quyết định giữa lấy mẫu dựa trên độ khơng chắc chắn và lấy mẫu dựa trên hội đồng, khơng cĩ một lý do tiên nghiệm nào để cho rằng phương pháp này hoạt động tốt hơn phương pháp kia và khơng cĩ khả năng là thực thi theo phương pháp này sẽ khĩ khăn hơn phương pháp kia trong ngữ cảnh của mơ hình RAPIER. Phương pháp lấy mẫu dựa trên độ khơng chắc chắn được lựa chọn chủ yếu là vì các lý do hiệu quả, vì nếu sử dụng lấy mẫu dựa trên hội đồng địi hỏi phải học nhiều tập luật và thời gian huấn luyện của RAPIER là khá đáng kể.

Độ khơng chắc chắn trong RAPIER

Sử dụng phương pháp lấy mẫu dựa trên độ khơng chắc chắn địi hỏi một khái niệm vềđộ tin cậy mà hệ thống cĩ trong việc gán nhãn của nĩ cho một ví dụ. Để xác định độ tin cậy của việc gán nhãn của một ví dụ, chúng ta cần bắt đầu với một khái niệm về độ tin cậy của một luật. RAPIER khơng cĩ sẵn một khái niệm về độ chắc chắn của một luật, mà, do khơng cần cĩ ngưỡng, độ tin cậy của một luật cĩ thểđược xem rất đơn giản là sự bao phủ của các ví dụ dương trong tập huấn luyện với một mức bù trừđối với sự bao phủ của các ví dụ âm:

conf = pos - 5neg

Lập luận đằng sau khái niệm vềđộ tin cậy này khá dễ hiểu. Nĩ chỉ ra rằng phần lớn các lỗi tạo bởi các luật đã học là do các luật mà bao phủ một số lượng rất nhỏ các ví dụ dương tạo nên. Do đĩ, các luật bao phủ số lượng lớn các ví dụ dương sẽđược tin cậy và khơng tin cậy các luật bao phủ chỉ một số ít các ví dụ dương. Tuy nhiên, các luật bao phủ các ví dụ âm cũng khơng được tin cậy trừ phi số ví dụ dương hồn tồn lấn át. Vì vậy, chúng ta áp đặt một mức bù trừ đáng kể với các luật bao phủ ví dụ âm.

Với khái niệm về độ tin cậy của luật nêu trên, chúng ta cĩ thể xác định độ tin cậy của việc gán nhãn của một trường thơng tin. Trong trường hợp một luật đơn tìm thấy một thơng tin cần trích rút, độ tin cậy đối với trường thơng tin sẽ là độ tin cậy của luật mà đã điền vào trường thơng tin đĩ. Tuy nhiên, khi cĩ nhiều hơn một thơng tin cần trích rút được tìm thấy, độ tin cậy của trường thơng tin phải được xác định.

Cĩ ba cách cĩ lý để thực hiện điều này: 1) lấy giá trị trung bình của các độ tin cậy đối với các thơng tin cần trích rút, 2) lấy độ tin cậy tối đa, hoặc 3) lấy độ tin cậy tối thiểu. Bởi vì chúng ta muốn tập trung quan tâm vào các luật ít tin cậy nhất và tìm các ví dụ mà hoặc là chứng thực hoặc là phủ nhận các luật đĩ, nên chúng ta sẽ sử dụng lựa chọn thứ ba.

Một xem xét cuối cùng trong việc xác định độ tin cậy của mỗi trường thơng tin là với một trường thơng tin trống thì độ tin cậy là gì. Do khơng cĩ luật nào trích rút được một giá trị cho trường thơng tin trống, nên trường thơng tin như vậy cĩ thể xem như cĩ độ tin cậy là 0. Tuy nhiên, trong một số tác vụ, một số trường thơng tin cĩ thể bị trống với số phần trăm lớn. Mặt khác, một số trường thơng tin lại luơn (hoặc gần như luơn luơn) được điền, và sự để trống của các thơng tin cần trích rút cho các trường thơng tin đĩ làm cho độ tin cậy của ví dụ huấn luyện giảm xuống. Để xử lý vấn đề này, chúng ta theo dõi số lần một trường thơng tin xuất hiện trong dữ liệu huấn luyện mà khơng được điền và sử dụng con số đĩ như là độ tin cậy của trường thơng tin khi mà khơng tìm thấy filler cho nĩ.

Khi độ tin cậy của các trường thơng tin đã được xác định, độ tin cậy của một ví dụ được xác định dễ dàng bằng cách cộng lại độ tin cậy của tất cả các trường thơng tin.

Trang bị khả năng học tăng cường cho RAPIER

Một trong những hạn chế lớn để sử dụng học tích cực với RAPIER là thời gian huấn luyện. Chúng ta muốn lựa chọn một nhĩm rất nhỏ các ví dụở mỗi bước lặp (vì việc lựa chọn nhiều ví dụ cùng một lúc cĩ thể dẫn đến lựa chọn được các ví dụ rất giống nhau), nhưng ở mỗi bước lặp chúng ta phải huấn luyện lại với các ví dụ thêm vào, và thời gian huấn luyện cĩ thể bắt đầu trở nên quá cao. Tuy nhiên, tạo cho RAPIER khả năng học tăng cường là một quá trình khá dễ làm mà cĩ thể làm dịu bớt vấn đề này.

Do RAPIER sử dụng hướng tiếp cận cơ đọng lại nên việc thay đổi nĩ thành học tăng cường là khá dễ dàng. Do RAPIER bắt đầu với một tập luật sau đĩ tiến hành cơ

đọng nĩ, thay vì tạo tập luật từ các ví dụ, nĩ cĩ thểđọc một tập luật cĩ trước, thêm các luật đối với các ví dụ mới sau đĩ cơ đọng tập luật kết quả.

Phiên bản học tăng cường của RAPIER bắt đầu bằng việc đọc vào các ví dụ cũ (mà đã được sử dụng để tạo tập luật cũ) và bổ sung các ví dụ mới mà các luật sẽđược bổ sung đối với chúng. Sau đĩ nĩ đọc tập luật cũ. Để ngăn cản việc hệ thống giữ các luật đã quá chung chung, RAPIER đánh giá từng luật trong tập luật cũ trên tồn bộ tập ví dụ. Nếu một luật bao phủ quá nhiều ví dụ âm (sử dụng cùng tiêu chuẩn đánh giá và ngưỡng nhưđã sử dụng để cho phép bao phủ ví dụ âm như mơ tả trong phần 2.2.5), luật đĩ sẽ bị loại bỏ khỏi tập luật, và các luật mới cụ thể nhất được tạo cho mỗi ví dụ dương bao phủ bởi luật ban đầu. Cuối cùng, hệ thống tạo các luật mới cụ thể nhất đối với mỗi ví dụ mới. Khi tập luật khởi đầu được xây dựng theo cách này, việc học được thực hiện đúng như mơ tả trong phần 2.2.

Phiên bản học tăng cường của RAPIER khơng làm giảm bớt nhiều thời gian học cho mỗi ví dụ, vì các luật mới phải được đánh giá trên cả các ví dụ cũ và ví dụ mới (và việc đánh giá luật chiếm tỷ lệđáng kể thời gian học) và vì nĩ phải xử lý với các luật quá chung chung. Tuy nhiên, thời gian huấn luyện được giảm bớt đáng kể so với việc học từ đầu với các ví dụ cũ và mới. Nhờđĩ, việc sử dụng lấy mẫu cĩ lựa chọn là một khả năng hiện thực và hiệu năng tổng thể khơng bịảnh hưởng đáng kể.

2.4. Kết chương

Trong chương này tác giả đã trình bày về cách biểu diễn luật, về giải thuật học RAPIER và sử dụng học tích cực với mơ hình RAPIER. Trong phần giải thuật học đề cập tới giải thuật học tổng thể, về tiêu chuẩn đánh giá luật, về các giai đoạn khởi tạo tập luật, khái quát hĩa tập luật, chuyên biệt hĩa mỗi luật. Để tính khái quát hĩa của hai mẫu, trước hết cần khái quát hĩa các ràng buộc của các phần tử mẫu, sau đĩ khái quát hĩa các phần tử mẫu. Trong việc áp dụng phương pháp học tích cực, RAPIER sử dụng phương pháp lấy mẫu cĩ lựa chọn dựa trên độ khơng chắc chắn.

Để cĩ thể áp dụng được phương pháp học này, RAPIER được trang bị khả năng học tăng cường.

Trong chương kế tiếp, tác giả sẽ trình bày vềđề xuất áp dụng mơ hình RAPIER vào lĩnh vực tiếng Việt, trong đĩ trình bày các điều chỉnh cần thiết, các cơng cụ và nguồn lực xử lý ngơn ngữ tự nhiên tiếng Việt được sử dụng khi áp dụng mơ hình RAPIER vào tiếng Việt và các cải tiến so với mơ hình đã cĩ.

CHƯƠNG 3

ĐỀ XUẤT MƠ HÌNH RAPIER CHO TRÍCH RÚT THƠNG TIN TIẾNG VIỆT

NỘI DUNG:

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 68 - 73)

Tải bản đầy đủ (PDF)

(117 trang)