Giải thích độ mờ của mô hình

Giá trị mờ P(S) = H/M cho biết độ gần tựa ngữ nghĩa của P trong S. Tập nền X là tập rõ bao gồm tập tất cả các xâu S trong cơ sở dữ liệu. Khi P(S) = 1 nghĩa là có mẫu P trong S hay toàn bộ thông tin của P được phản ánh trong S. Khi P(S) = 0 thì không có bất kỳ một phần nào của mẫu P trong S (xem Hình 2.4).

Hình 2.4. Tập mờ mô tả độ gần tựa ngữ nghĩa của mẫu P so với xâu đích S Độ phức tạp khi so sánh mỗi khối (t,i) của mẫu được cắt với S có thể sử dụng thuật toán theo tiếp cận mờ xác định nhiều lần lặp mẫu (xem

S1 S S2 S3 độ gần 1,0 0,8 0,4 0,0 0(S)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

mục 2.1.3), cỡ là n, chưa tính khâu tiền xử lý cho cấu trúc bảng chuyển của otomat.

Số khối được xét với mọi t là: m+(m-1) + ... + 1 = m(m+1)/2. Vì mẫu đưa vào thường ngắn từ 3 đến 30 ký tự nên giá trị này có thể coi là hằng số C.

Do đó độ phức tạp thời gian của thuật toán là T = n.m(m+1)/2+Tpt, với Tpr là thời gian tiền xử lý để tính m(m+1)/2 cấu trúc otomat. Thời gian tiền xử lý này là hằng số và không lớn nếu so với n = |S| (rất lớn) nên xem độ phức tạp của thuật toán là O(n). Nhưng nếu S nhỏ và tìm nhiều lần trên nhiều S khác nhau, mỗi S là giá trị trên trường text của bản ghi trong cơ sở dữ liệu, mà phải bắt đầu lại quá trình tìm mẫu thì quá là con số không nhỏ: cỡ k.T, với k là số bản ghi cần duyệt.

Thuật toán KMP( Knuth Morris Pratt)

Thuật toán BM( Boyer Moor)