Áp dụng phương pháp học tích cực với RAPIER

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 38 - 67)

RAPIER học các luật trích rút thơng tin từ các ví dụ huấn luyện bao gồm các văn bản ghép cặp với các mẫu đã điền kết quả. Chương này sẽ trình bày về cách biểu diễn luật và giải thuật học của RAPIER[2].

2.1. Biểu diễn luật

Cách biểu diễn luật của RAPIER sử dụng mẫu (pattern) giống như mẫu Eliza (Weizenbaum, 1966) cĩ thể tạo ra các thơng tin ràng buộc về cú pháp và ngữ nghĩa. Các luật được đánh chỉ số bởi tên khuơn mẫu (template name) tên trường thơng tin (slot name) và bao gồm ba phần: 1) một mẫu pre-filler để so khớp đoạn văn bản ngay trước thơng tin trích rút (mẫu filler), 2) một mẫu khớp thơng tin cần trích rút của trường và 3) một mẫu post-fillerđể so khớp với đoạn văn bản ngay sau thơng tin trích rút. Mỗi mẫu là một chuỗi (cĩ thể độ dài 0 trong trường hợp các mẫu pre- fillerpost-filler) các phần tử mẫu (element). Cĩ hai kiểu phần từ được sử dụng: dạng mục (pattern items) và dạng danh sách (pattern lists). Một mẫu dạng item so khớp chính xác một từ (word) hay một ký hiệu (symbol) từ văn bản thỏa các ràng buộc của item. Một mẫu dạng danh sách định rõ độ dài tối đa N và so khớp 0 đến N từ hoặc ký hiệu từ văn bản, mỗi từ hoặc ký hiệu đĩ phải thỏa các ràng buộc của danh sách. RAPIER sử dụng ba dạng ràng buộc trên các phần tử mẫu: các ràng buộc về các từ mà phần tử cĩ thể so khớp, về các nhãn từ loại (POS tag) được gán cho các từ mà phần tử cĩ thể so khớp và ràng buộc về lớp ngữ nghĩa (semantic class) của các từ mà phần tử cĩ thể so khớp. Các ràng buộc này là các danh sách tách rời của một hay nhiều từ, nhãn từ loại hay lớp ngữ nghĩa và các mục của văn bản phải so khớp một trong số các từ, nhãn, hay lớp đĩ đểđáp ứng ràng buộc.

Hình 2.1 trình bày một ví dụ về một luật mà cho thấy các dạng khác nhau của các phần tử mẫu và các ràng buộc. Luật này được xây dựng bởi RAPIER để trích rút sản lượng giao dịch của một dịch vụ cung cấp tin liên quan tới một vụ mua lại cơng ty. Luật này sẽ trích rút giá trị “undisclosed” từ các câu như là “sold to the bank for an undisclosed ammount” hoặc “paid Honeywell an undisclosed price”. Trong luật

này, mẫu pre-filler bao gồm hai phần tử mẫu. Phần tử thứ nhất là một mục với ràng buộc về từ loại là danh từ (noun-nn) hoặc danh từ riêng (proper noun-nnp). Phần tử thứ hai là một danh sách độ dài tối đa là 2 và khơng cĩ ràng buộc nào. Mẫu filler là một mục đơn với ràng buộc về từ là từ “undisclosed”, ràng buộc về từ loại là một tính từ (adjective-jj). Mẫu post-filler cũng là một mục đơn với ràng buộc về lớp ngữ nghĩa là “price".

Trong việc sử dụng những mẫu này để trích rút thơng tin, RAPIER áp dụng tất cả các luật cho một trường thơng tin đã định sẵn cho một văn bản và đưa ra tất cả các chuỗi trích rút được gọi là thơng tin cần trích rút của trường (slot-filler), được loại trừ trùng lắp. Các luật cũng cĩ thểđược áp dụng nhiều lần. Trong nhiều trường hợp, mỗi trường cĩ thể cĩ nhiều thơng tin cần trích rút, nhưng hệ thống chỉ đưa ra một thơng tin điền (filler) đối với các trường mà ở đĩ chỉ yêu cầu một thơng tin điền xuất hiện. Pre-filler Pattern: 1) syntactic: {nn,nnp} 2) list: length 2 Filler Pattern: 1) word: undisclosed syntactic: jj Post-filler Pattern: 1) semantic: price Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật 2.2. Giải thuật học 2.2.1. Các lựa chọn thiết kế giải thuật

Nhưđã nêu ở phần mởđầu, RAPIER được phỏng theo các phương pháp ILP, cụ thể là GOLEM, CHILLIN và PROGOL. Nĩ dựa trên việc nén (cơ đọng lại) tập luật và chủ yếu gồm cĩ phép tìm kiếm từ cụ thể đến khái quát (dưới-lên). Việc lựa chọn cách tiếp cận dưới-lên cĩ hai lý do. Lý do thứ nhất là hệ số rẽ nhánh về khơng gian tìm kiếm là rất lớn, đặc biệt là để tìm các ràng buộc về từ và ngữ nghĩa. Các hệ thống học hoạt động về ngơn ngữ tự nhiên thường phải cĩ cơ chế nào đĩ để xử lý việc tìm kiếm bị áp đặt bởi kho từ vựng lớn với số lượng đáng kể văn bản (hoặc câu). Nhiều hệ thống giải quyết vấn đề này bằng cách áp đặt các giới hạn đối với

kho từ vựng để chỉ xem xét sử dụng n từ xuất hiện thường xuyên nhất, hoặc chỉ xem xét các từ mà xuất hiện ít nhất k lần trong ngữ liệu huấn luyện (Yang & Pederson, 1997). Bằng việc sử dụng cách tiếp cận dưới-lên sẽ làm giảm việc xem xét các hằng số trong việc tạo luật cho các hằng số xuất hiện trong ví dụ huấn luyện mà từđĩ luật được xây dựng lên, do đĩ định ra giới hạn phép tìm kiếm mà khơng áp đặt các giới hạn cứng trên các hằng sốđược xem xét.

Lý do thứ hai cho việc lựa chọn cách tiếp cận dưới-lên là để ưu tiên chấp nhận các luật quá cụ thể cịn hơn là các luật quá chung chung. Trong tác vụ trích rút thơng tin, cũng như các tác vụ xử lý ngơn ngữ tự nhiên khác, thường cĩ sự thỏa hiệp giữa độ chính xác cao (tránh các kết quả sai) và độ bao phủ cao (nhận biết nhiều nhất các kết quả đúng). Chẳng hạn, đối với tác vụ xây dựng một cơ sở dữ liệu về việc làm, chúng ta thường mong muốn nhấn mạnh về độ chính xác. Nếu thực hiện phép tìm kiếm dựa trên từ khĩa trên các văn bản gốc sẽ cĩ độ bao phủ tối đa (vì chúng ta chỉ lấy ra trực tiếp các chuỗi từ văn bản), nhưng độ chính xác sẽ tương đối thấp. Cách tiếp cận dưới-lên sẽ cĩ xu hướng tạo ra các luật cụ thể, cũng là hướng tới được các luật chính xác.

Với việc lựa chọn cách tiếp cận dưới-lên, giải thuật tổng thể dạng cơ đọng lại hay dạng nén (compression) là một sự điều chỉnh tốt. Cách tiếp cận dưới-lên cĩ xu hướng mạnh mẽ tới việc tạo các luật cụ thể, chính xác. Sử dụng giải thuật tổng thể dạng nén cĩ thể trung hịa một phần xu hướng này với xu hướng của nĩ là hướng tới một phép tìm kiếm kỹ lưỡng hơn cho các luật khái quát. Vì vậy, giống như mơ hình CHILLIN (Zelle & Mooney, 1994), RAPIER bắt đầu với một định nghĩa cụ thể nhất và sau đĩ cố gắng cơ đọng lại định nghĩa đĩ bằng cách thay thế các luật đã cĩ bởi các luật khái quát hơn. Vì trong cách biểu diễn luật của RAPIER, các luật đối với các trường khác nhau là độc lập với nhau nên trên thực tế hệ thống tạo định nghĩa cụ thể nhất và sau đĩ cơ đọng nĩ một cách riêng rẽ cho mỗi trường trong khuơn mẫu.

2.2.2. Tổng quan về giải thuật

Hình 2.2: Giải thuật RAPIER

Vịng lặp ngồi cơ bản của giải thuật thể hiện trong Hình 2.2. Nĩ là giải thuật dựa trên tiêu chuẩn cơ đọng hĩa (nén) khá rõ ràng. Lưu ý rằng việc học được thực hiện riêng rẽ với từng trường thơng tin S. Giải thuật để xây dựng các luật khởi đầu cụ thể

Failures = 0 Bắt đầu Kết thúc BestNewRule = FindNewRule(SlotRules, Examples) Failures = Failures + 1 BestNewRule chấp nhận được bổ sung BestNewRule vào SlotRules đ s Failures < CompressLim SlotRules = các luật cụ thể nhất đối với trường S từ các văn bản ví dụ s đ loại bỏ các luật đã được gộp thực nghiệm từ SlotRules

nhất được đề cập chi tiết trong các phần sau. CompressLim là một tham số xác định số lần tối đa giải thuật cĩ thể thất bại khi cơ đọng hĩa tập luật. Chúng ta cho phép nhiều lần thử để tìm một luật chấp nhận được vì tính ngẫu nhiên tích hợp trong giải thuật khái quát hĩa luật. Khi số lượng tối đa số lần nén thất bại bị vượt quá, giải thuật kết thúc.

Định nghĩa về một luật chấp nhận được được xem xét dưới đây trong phần đánh giá các luật. Nĩi một cách ngắn gọn, một luật chấp nhận được là luật mà bao phủ các ví dụ dương và cĩ thể bao phủ một số lượng tương đối nhỏ các ví dụ âm (khơng bao phủ vượt quá số phần trăm cho phép về số thơng tin điền sai). Khi tìm được một luật chấp nhận được, RAPIER sử dụng khái niệm về phép gộp thực nghiệm để xác định những luật được bao phủ bởi luật mới và do đĩ bị loại bỏ khỏi tập luật.

2.2.3. Xây dựng tập luật khởi đầu

Bước đầu tiên đối với mỗi trường thơng tin là tạo tập luật cụ thể nhất cho trường đĩ. Đối với mỗi văn bản, các luật được tạo cho mỗi lần xuất hiện của mỗi thơng tin cần trích rút trong khuơn mẫu của văn bản đĩ. Mẫu thơng tin của luật là một danh sách các mục mẫu, mỗi mục cho một từ hay ký hiệu trong thơng tin điền (filler), trong đĩ ràng buộc về từ là từ hay ký hiệu và ràng buộc về từ loại là nhãn từ loại lấy từ văn bản (do bộ gán nhãn từ loại tạo nên khi tiền xử lý văn bản). Lớp ngữ nghĩa được để lại, khơng tạo ràng buộc bởi vì một từ thường cĩ thể cĩ nhiều lớp nghĩa do tính đồng âm khác nghĩa và tính đa nghĩa của ngơn ngữ. Nếu các ràng buộc ngữ nghĩa được tạo ngay lúc này thì RAPIER phải hoặc là sử dụng phép tách rời tất cả các lớp nghĩa cĩ thể cĩ ở mức độ thấp nhất về tính khái quát (trong trường hợp sử dụng WordNet, đĩ là các tập đồng nghĩa mà từ thuộc mục đang xét thuộc vào đĩ) hoặc là chọn một lớp ngữ nghĩa. Lựa chọn thứ nhất cĩ phần khĩ giải quyết vì ràng buộc kết quả rất cĩ thể là quá chung chung để được sử dụng nhiều. Lựa chọn thứ hai là tốt nhất, nếu và chỉ nếu lớp ngữ nghĩa là đúng ngữ cảnh với từ, cũng là một vấn đề rất khĩ khăn. Việc lựa chọn lớp nghĩa hay được dùng nhất cĩ thể đúng trong một số

trường hợp, nhưng khơng chắc chắn cho tất cả các trường hợp, và ngồi ra cịn cĩ các vấn đề vềđặc thù lĩnh vực thơng tin. Nghĩa hay dùng nhất của một từ trong tất cả các ngữ cảnh cĩ thể khơng phải là nghĩa hay dùng nhất của từđĩ trong lĩnh vực thơng tin cụ thể. Và, tất nhiên, ngay cả trong một lĩnh vực nào đĩ các từ cũng sẽ cĩ nhiều nghĩa vì vậy ngay cả việc xác định nghĩa hay dùng nhất của một từ trong một lĩnh vực cụ thể cũng cĩ thể là lựa chọn sai. RAPIER tránh hồn tồn vấn đề này bằng cách đợi đến khi thực hiện việc khái quát tập luật mới tạo các ràng buộc về ngữ nghĩa. Vì vậy, nĩ hồn tồn cho phép tách rời các lớp, chỉ lựa chọn một lớp cụ thể khi mục đang xét được khái quát hĩa với một mục chứa một từ khác. Bằng việc trì hỗn lựa chọn một lớp ngữ nghĩa cho đến khi cĩ nhiều mục địi hỏi đưa vào ràng buộc ngữ nghĩa, RAPIER thu hẹp số lượng các lựa chọn cĩ thể đối với lớp ngữ nghĩa thành các lớp nghĩa mà bao phủ hai hay nhiều từ. Các chi tiết liên quan tới việc tạo các ràng buộc ngữ nghĩa được trình bày trong phần 2.2.6.

Việc tạo các mẫu pre-fillerpost-filler tương tự như với mẫu filler. Mẫu pre-filler

là một danh sách các mục mẫu đối với các từ hoặc ký hiệu đứng trước thơng tin điền trong văn bản, và mẫu post-filler bao gồm các mục đối với tất cả các các từ hoặc ký hiệu đứng sau thơng tin điền. Số lượng các mục đứng trước và đứng sau này được ấn định khơng nhất thiết phải là tất cả các mục đứng trước và đứng sau. Trong mơ hình cải tiến áp dụng cho tiếng Việt, số lượng đĩ được xây dựng thành tùy chọn cho mỗi trường thơng tin, vừa đảm bảo độ chính xác cần thiết vừa đảm bảo về hiệu năng chương trình (đề cập trong Chương 3). Như vậy, mỗi luật bao phủ chỉ một thơng tin cần trích rút mà nĩ được tạo ra cho thơng tin cần trích rút ấy, và nĩ cung cấp thơng tin đầy đủ (trong giới hạn về biểu diễn luật) về ngữ cảnh xuất hiện thơng tin điền đĩ.

2.2.4. Cơ đọng tập luật

Sau khi đã tạo định nghĩa cụ thể nhất cho mỗi trường thơng tin, RAPIER cố gắng nén (cơ đọng lại) tập luật bằng cách thay thế các luật cụ thể bằng các luật khái quát hơn. Các luật khái quát hơn được tạo ra bằng cách lấy ra một vài cặp ngẫu nhiên các

luật trong tập luật, tìm ra các trường hợp tổng quát của các cặp luật đĩ, và nếu kết quả là một hay nhiều luật chấp nhận được thì chọn luật tốt nhất trong sốđĩ để đưa vào tập luật. Khi luật mới đã được đưa vào tập luật, RAPIER loại bỏ các luật cũ mà luật mới đã gộp thực nghiệm, cụ thể là các luật mà bao phủ một tập con các ví dụ được bao phủ bởi luật mới.

Như đã đề cập trong Chương 1, ý tưởng về việc tạo các luật mới bằng cách khái quát hĩa các cặp luật là từ mơ hình GOLEM (Muggleton & Feng, 1992). Tuy nhiên, RAPIER khác đáng kể so với GOLEM trong việc sử dụng các khái niệm cơ bản. Trước tiên, GOLEM luơn lựa chọn các ngẫu nhiên các cặp ví dụ, cịn RAPIER lựa chọn ngẫu nhiên các cặp luật. Khi mà các luật được RAPIER lựa chọn là các luật cụ thể nhất bao phủ một ví dụ đơn, khơng cĩ sự khác nhau thực sự nào giữa hai giải thuật học vì một ví dụ trong Inductive Logic Programming về bản chất cũng là các luật cụ thể nhất. Tuy nhiên, RAPIER cĩ thể lựa chọn các luật mà là kết quả của lần khái quát hĩa trước đĩ và tiếp tục khái quát hĩa chúng thêm nữa. Điều này chỉ ra điểm khác biệt thứ hai giữa hai giải thuật học: khác nhau về cách chúng lặp lại việc khái quát hĩa để đạt được các luật khái quát nhất cĩ thể. Trong khi GOLEM thu được luật kết quả từ việc khái quát hĩa một cặp ví dụ và cố gắng khái quát hĩa thêm nữa để bao phủ các ví dụ mới được chọn ngẫu nhiên, thì RAPIER lại bổ sung một cách đơn giản luật vào tập luật sau đĩ luật này cĩ thể được lựa chọn để khái quát hĩa cùng với một luật khác. Các điểm khác nhau đĩ chủ yếu bắt nguồn từ các cách tiếp cận khác nhau của hai giải thuật ở mức tổng thể. Vì GOLEM đi theo hướng tiếp cận bao phủ, nĩ phải khái quát một cách đầy đủ, tối đa một luật khởi đầu đã định sẵn, vì các ví dụ luật bao phủ sẽ bị loại bỏ ở bước xem xét thêm nữa. Hướng tiếp cận cơ đọng lại của RAPIER làm cho nĩ thực hiện việc khái quát hĩa ít hơn ở mỗi bước thực hiện.

Khía cạnh độc đáo nhất của giải thuật học RAPIER là cách thức mà nĩ thực sự tạo ra một luật mới từ một cặp ngẫu nhiên của các luật. Phương pháp dễ làm của việc khái quát hai luật với nhau là tìm phép tổng quát hĩa ít khái quát nhất (LGG) của

hai mẫu pre-filler và sử dụng làm mẫu pre-filler của luật mới, làm cho mẫu filler

của luật mới là LGG của hai mẫu filler, và sau đĩ làm tương tự đối với mẫu post- filler. Tuy nhiên, cĩ hai vấn đề nghiêm trọng với hướng tiếp cận này.

Vấn đề thứ nhất là chi phí của việc tính tốn các LGGs của các mẫu pre-filler và mẫu post-filler. Các mẫu cĩ thể rất dài, và các mẫu pre-filler hoặc mẫu post-filler

của hai luật cĩ thể cĩ độ dài khác nhau. Việc khái quát hĩa các mẫu với độ dài khác nhau cĩ chi phí tính tốn đắt đỏ bởi vì mỗi phần tử mẫu riêng lẻ trong mẫu ngắn hơn cĩ thể được tổng quát tương phản lại với một hoặc nhiều phần tử của mẫu dài hơn, và nĩ khơng được biết trước đĩ các phần tửđược kết hợp như thế nào để tạo ra LGG. Vì vậy, việc tính tốn của LGG của mẫu pre-filler và mẫu post-filler về tổng số cĩ thể cĩ chi phí tính tốn quá cao.

Vấn đề thứ hai khơng phải là vấn đề về độ phức tạp tính tốn mà là vấn đề gây ra bởi khả năng của cách biểu diễn luật. Do cách biểu diễn luật của RAPIER cho phép

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 38 - 67)

Tải bản đầy đủ (PDF)

(117 trang)