Hình dạng và biểu diễn của tập luật (Form and Repr- 123docz.net

Chương 2. CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN

2.1. Các phương pháp dựa trên tập luật (rule-based)

2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of Rules)

Theo tài liệu Information Extraction của Sunita Sarawagi [1], một luật cơ bản có dạng: "mẫu theo ngữ cảnh ^ hành động". Một mẫu theo ngữ cảnh báo gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản. Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác định qua các tính năng của thẻ trong văn bản và một nhãn tuỳ chọn. Các thuộc tính có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trong các thẻ xuất hiện.

Hầu hết các hệ thống dựa trên luật được liên tầng; luật được áp dụng trong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một chú thích như là tính năng đầu vào cho các giai đoạn tiếp theo. Ví dụ, một trích chọn cho các địa chỉ liên lạc của người được tạo ra trong hai giai đoạn của luật: giai đoạn thứ nhất nhãn thẻ cùng với nhãn thực thể như: tên người, vị trí địa lý như tên đường, tên thành phố, và địa chỉ thư điện tử. Giai đoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như là thuộc tính bổ sung.

2.1.3.1. Các thuộc tính của các thẻ (Features of Tokens)

Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộc tính thu được thông qua một hoặc nhiều các tiêu chí sau:

Các chuỗi đại diện cho thẻ .

Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn hợp, số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, ...

Các phần phát biểu (part of speech) của thẻ

Danh sách xuất hiện các thẻ của từ điển. Thông thường, điều này có thể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt đầu, kết thúc, hoặc từ giữa của từ điển. Ví dụ, một thẻ như " New " phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ được liên kết với một thuộc tính

"Dictionary - Lookup = start of city . "

Chú thích kèm theo các bước xử lý trước đó.

Luật để xác định một thực thể đơn (Rules to Identify a Single Entity):

Luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu.

Một mẫu tùy chọn ghi lại bối cảnh trước khi bắt đầu của một thực thể . Một mẫu kết hợp các thẻ trong các thực thể.

Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể.

Ví dụ về một mẫu để xác định tên người có dạng "Dr. Yair Weiss" bao gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các mục như : “Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là

({Dictionary - Lookup = Titles}{String = “”}{Orthography type

=capitalized word}{2})^-Person Names.

Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ. Ví dụ về một luật để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm:

(String=“by”|String=“in”})({Orthography type = Number}):y^Year=:y. Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành " year".

Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or

“ABC Ltd.” được tạo bởi:

({String-‘The”}? {Orthography type = All capitalized}{Orthography type

= Capitalized word, DictionaryType -Company end})^Company name

2.1.3.2. Các luật đánh dấu ranh giới thực thể (Rules to Mark Entity Boundaries)

Đối với một số loại thực thể, trong các đơn vị dài đặc biệt như tiêu đề cuốn sách, nó là hiệu quả hơn để xác định các luật đặc biệt để đánh dấu sự bắt đầu và kết thúc một ranh giới thực thể. Đó là loại bỏ một cách độc lập và tất cả các thẻ ở trong giữ hai thẻ đánh dấu đầu và cuối được gọi là thực thể. Nhìn nhận vấn đề theo một cách khác, mỗi luật cơ bản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này có thể là một thẻ bắt đầu hoặc một thẻ kết thúc. Để giải quyết sự không nhất quán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấu kết thúc, điều này cần có một cách giải quyết đặc biệt. Ví dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầu của một tên tạp chí trong một bản trích dẫn:

({String=“to”} {String=“appear”} {String=“in”}):jstart

({Orthography type = Capitalized word}{2-5})^-insert <joumal>

after:jstart.

2.1.3.3. Các luật cho đa thực thể (Rules for Multiple Entities)

Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của nhiều đối tượng cùng một lúc. Những luật này được sử dụng tốt hơn cho bản ghi dữ liệu theo định hướng. Hệ thống dựa trên luật WHISK [14] đã được nhắm tới cho việc khai thác từ hồ sơ có cấu trúc như hồ sơ y tế , các bản ghi bảo trì thiết bị, và phân loại quảng cáo. Các luật này được viết lại từ, để trích chọn hai thực thể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ. ({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)

({String =“$”})({Orthography type = Number}):Price^Number of Bedrooms =:Bedroom, Rent =: Price

2.1.3.4. Chọn lựa hình dạng của tập luật (Alternative Forms of Rules)

Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chương trình tùy ý viết bằng ngôn ngữ thủ tục như Java và C + + thay cho cả hai thành phần mẫu và phần hành vi của các luật. Trong nghiến cứu của H.

Cunningham và cộng sự sử dụng hỗ trợ các chương trình Java thay cho ngôn ngữ hình thức các luật tùy chỉnh của nó được gọi là JAPE trong hoạt động của một luật. Đây là một khả năng mạnh mẽ bởi vì nó cho phép phần hành vi của các quy tắc để truy cập các thuộc tính khác nhau mà được sử dụng trong phần mẫu của các quy tắc và được sử dụng để chèn các trường mới cho chuỗi chú thích [17].

Nhìn chung, trong các hệ thống tri thức (knowledge systems), ban đầu thường được sử dụng phương pháp tiếp cận dựa trên luật (rule-based).

Phương pháp này có những ưu điểm và nhược điểm sau:

Về ưu điểm:

- Cần sử dụng ít dữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên dữ liệu.

- Phương pháp này có thể xây dựng các biểu thức chính quy tốt cho trích chọn thông dựa trên cú pháp, từ vưng, và các thành phần ngữ nghĩa. Phương pháp tiếp cận dựa trên luật phù hợp với bài toán trích chọn các thông tin về thời gian (“rạng sáng hôm qua ”, “giữa trưa hôm nay”). Phương pháp này cho độ chính xác rất cao (do được xây dựng để lấy ra các thông tin đặc biệt), độ hồi tưởng thấp. Do đó phương pháp này rất thích hợp cho các bài toán chỉ quan tâm đến độ chính xác.

Về nhược điểm:

- Khi sử dụng phương pháp này đòi hỏi người xây dựng đóng vai trò như chuyên gia miền dữ liệu, cần phải rất am hiểu dữ liệu, người xây dựng phải có kiến thức về ngôn ngữ, tự vựng và cú pháp. Hơn nữa, tập luật thường được xây dựng để lấy ra các thông tin đặc biệt, dó đó khi thay đổi sang miền

dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp. Việc xây dựng tập luật đôi khi rất tốn thời gian và chi phí.