Giới thiệu về agrep

CHƯƠNG 3 : THỰC NGHIỆM

3.1. Giới thiệu về agrep

AGREP là một cơng cụ mạnh để nhanh chĩng tìm kiếm một tập tin hoặc nhiều tập tin cho một chuỗi hoặc biểu thức chính quy, với khả năng kết hợp gần

đúng và cĩ thể xác định hồ sơ người dùng. Agrep được Udi Manber và Sun Wu phát triển trong giai đoạn 1989-1991 [WM92] và sau đĩ được nhiều người khác cùng tham gia nâng cấp. AGREP tương tự như egrep (hoặc grep hoặc fgrep),

nhưng nĩ tổng quát hơn và thường nhanh hơn. Nĩ cũng hỗ trợ nhiều loại truy vấn, bộ mẫu, và biểu thức thơng thường nĩi chung.

Như đã được giới thiệu, tìm kiếm một mẫu trong văn bản là một hoạt

động phổ biến trong các ứng dụng từ soạn thảo văn bản đến tìm kiếm cơ sở dữ

liệu cho các ứng dụng sinh học phân tử. Trong nhiều trường hợp mẫu cĩ thể

xuất hiện hoặc khơng xuất hiện trong văn bản. Sai sĩt trong văn bản hoặc trong truy vấn cĩ thể do lỗi chính tả hoặc từ những thực nghiệm sai lầm (ví dụ như khi văn bản là một chuỗi DNA). Việc sử dụng sánh mẫu xấp xỉ hạn chếđược một số

lỗi. Hầu hết các trình soạn thảo văn bản và các chương trình tìm kiếm khơng hỗ

trợ tìm kiếm với các lỗi do sự phức tạp liên quan đến việc thực hiện nĩ. Agrep dựa trên thuật tốn hiệu quả và linh hoạt là sánh mẫu xấp xỉ.

So mẫu xấp xỉ cho phép tìm kiếm những thơng tin “gần giống”, trong một số trường hợp các mẫu hoặc văn bản khơng chính xác. Ta khơng thể nhớ

chính tả chính xác của một tên mà ta đang tìm kiếm, tên cĩ thể bị sai chính tả

trong văn bản, văn bản cĩ thể tương ứng với một chuỗi các số nhất định và ta khơng cĩ một mẫu chính xác, các văn bản cĩ thể là một chuỗi phân tử DNA và ta đang tìm kiếm các mẫu gần đúng ...Vấn đề tìm kiếm xấp xỉđặt ra trong nhiều

ứng dụng khoa học kĩ thuật như: nhận dạng chữ viết, nhận dạng ảnh, đồ thị, so sánh xấp xỉ trong các xâu nén cĩ độ dài khơng cố định, xác định cấu trúc con chung 3 chiều trong phân tử dược phẩm và protein, khám phá sự biến đổi trong chuỗi ADN,....và đặc biệt phổ biến trong các hệ thống trích rút văn bản.

Agrep khơng chỉ hỗ trợ một số lớn các tùy chọn, mà cịn rất hiệu quả. Ví dụ, việc tìm kiếm tất cả các lần xuất hiện của Homogenos cho phép hai lỗi trong một 1 MB văn bản mất khoảng 0,2 giây trên một SUN SparcStation H. Sánh mẫu càng chính xác thì thời gian thực hiện càng nhanh.

Giai đoạn tìm kiếm mẫu

Thuật tốn WM sử dụng bảng tiền tố