Giới thiệu về agrep

AGREP là một công cụ mạnh để nhanh chóng tìm kiếm một tập tin hoặc nhiều tập tin cho một chuỗi hoặc biểu thức chính quy, với khả năng kết hợp gần

đúng và có thể xác định hồ sơ người dùng. Agrep được Udi Manber và Sun Wu phát triển trong giai đoạn 1989-1991 [WM92] và sau đó được nhiều người khác cùng tham gia nâng cấp. AGREP tương tự như egrep (hoặc grep hoặc fgrep),

nhưng nó tổng quát hơn và thường nhanh hơn. Nó cũng hỗ trợ nhiều loại truy vấn, bộ mẫu, và biểu thức thông thường nói chung.

Như đã được giới thiệu, tìm kiếm một mẫu trong văn bản là một hoạt

động phổ biến trong các ứng dụng từ soạn thảo văn bản đến tìm kiếm cơ sở dữ

liệu cho các ứng dụng sinh học phân tử. Trong nhiều trường hợp mẫu có thể

xuất hiện hoặc không xuất hiện trong văn bản. Sai sót trong văn bản hoặc trong truy vấn có thể do lỗi chính tả hoặc từ những thực nghiệm sai lầm (ví dụ như khi văn bản là một chuỗi DNA). Việc sử dụng sánh mẫu xấp xỉ hạn chếđược một số

lỗi. Hầu hết các trình soạn thảo văn bản và các chương trình tìm kiếm không hỗ

trợ tìm kiếm với các lỗi do sự phức tạp liên quan đến việc thực hiện nó. Agrep dựa trên thuật toán hiệu quả và linh hoạt là sánh mẫu xấp xỉ.

So mẫu xấp xỉ cho phép tìm kiếm những thông tin “gần giống”, trong một số trường hợp các mẫu hoặc văn bản không chính xác. Ta không thể nhớ

chính tả chính xác của một tên mà ta đang tìm kiếm, tên có thể bị sai chính tả

trong văn bản, văn bản có thể tương ứng với một chuỗi các số nhất định và ta không có một mẫu chính xác, các văn bản có thể là một chuỗi phân tử DNA và ta đang tìm kiếm các mẫu gần đúng ...Vấn đề tìm kiếm xấp xỉđặt ra trong nhiều

ứng dụng khoa học kĩ thuật như: nhận dạng chữ viết, nhận dạng ảnh, đồ thị, so sánh xấp xỉ trong các xâu nén có độ dài không cố định, xác định cấu trúc con chung 3 chiều trong phân tử dược phẩm và protein, khám phá sự biến đổi trong chuỗi ADN,....và đặc biệt phổ biến trong các hệ thống trích rút văn bản.

Agrep không chỉ hỗ trợ một số lớn các tùy chọn, mà còn rất hiệu quả. Ví dụ, việc tìm kiếm tất cả các lần xuất hiện của Homogenos cho phép hai lỗi trong một 1 MB văn bản mất khoảng 0,2 giây trên một SUN SparcStation H. Sánh mẫu càng chính xác thì thời gian thực hiện càng nhanh.

Giai đoạn tìm kiếm mẫ u

Thuật toán WM đồng thời cao