0
Tải bản đầy đủ (.pdf) (54 trang)

Mụ hỡnh Logic

Một phần của tài liệu LUẬN VĂN KHAI PHÁ DỮ LIỆU (DATAMINING) (Trang 29 -31 )

Theo mụ hỡnh này cỏc từ cú nghĩa trong văn bản được Index và nội dung văn bản được quản lý theo cỏc chỉ số Index đú.

b.1. Cỏc quy tắc lưu trữ

- Mỗi văn bản được Index theo quy tắc:

Thống kờ cỏc từ cú nghĩa trong cỏc văn bản, đú là những từ mang thụng tin chớnh về cỏc văn bản lưu trữ.

Index cỏc văn bản đưa vào theo danh sỏch cỏc từ khoỏ núi trờn. Ứng với mỗi từ khoỏ trong danh sỏch sẽ lưu vị trớ xuất hiện nú trong từng văn bản và tờn văn bản tồn tại từ khoỏ đú.

Vớ dụ, cú hai văn bản với mĩ tương ứng là VB1,VB2. “Cộng hũa xĩ hội chủ nghĩa Việt Nam” (VB1) “ Việt Nam dõn chủ cộng hũa” (VB2)

Khi đú ta cú cỏch biểu diễn như sau:

b.2. Cỏc quy tắc tỡm kiếm:

Cõu hỏi tỡm kiếm được đưa ra dưới dạng Logic, tức là gồm một tập hợp cỏc phộp toỏn (AND, OR,…) được thực hiện trờn cỏc từ hoặc cụm từ. Việc tỡm kiếm sẽ dựa vào bảng Index đĩ tạo ra và kết quả trả lại là cỏc văn bản thoả mĩn tồn bộ cỏc điều kiện trờn

b.3. Ưu điểm Nh−ợc điểm

Ưu điểm

- Tỡm kiếm nhanh và đơn giản. Thựcvậy, giả sử cần tỡm kiếm từ “computer”. Hệ thống sẽ duyệt trờn bảng Index để trỏ đến chỉ số Index tương ứng. Nếu từ “computer” tồn tại trong hệ thống. Việc tỡm kiếm này là khỏ nhanh và đơn giản khi trước đú ta đĩ sắp xếp bảng Index theo vần chữ cỏi. Phộp tỡm kiếm trờn cú độ phức tạp cấp θ(nlog2n), với n là số từ trong bảng Index. Tương ứng với chỉ số index trờn sẽ cho ta biết cỏc tài liệu chứa nú.Như vậy việc tỡm kiếm liờn quan đến k từ thỡ cỏc phộp toỏn cần thực ehiện là k*n*log2n, với n là số từ trong bảng Index

- Cõu hỏi tỡm kiếm nhanh và linh hoạt

Cú thể dựng cỏc kớ tự đặc biệt trong cõu hỏi tỡm kiếm mà khụng làm ảnh hưởng đến độ phức tạp của phộp tỡm kiếm. Vớ dụ ta tỡm “ta” thỡ kết quả sẽ trả lại cỏc văn bản cú chứa cỏc từ “ta”, “tao”, “tay”,…là cỏc từ bắt đầu bằng từ “ta”

Kớ tự % được gọi là kớ tự đại diện (wildcard character).

Ngồi ra, bằng cỏc phộp toỏn Logic cỏc từ cần tỡm cú thể tổ chức thành cỏc cõu hỏi một cỏch linh hoạt. Vớ dụ: Cần tỡm từ [tụi, ta, tao], dấu “[]” sẽ thể hiện việc tỡm kiếm trờn một trong số nhiều từ trong nhúm. Đõy thực ra là một cỏch thể hiện linh hoạt phộp toỏn OR trong đại số Logic thay vỡ phải viết là: Tỡm cỏc tài liệu cú chứa từ “tụi” hoặc từ “ta” hoặc “tao”.

Từ mục MĩVB_Vị trớ XH Cộng VB1(1), VB2(5) Hũa VB1(2), VB2(6) VB1(3) hội VB1(4) chủ VB1(5), VB2(4) nghĩa VB1(6) Việt VB1(7), VB2(1) Nam VB1(8), VB2(2) Dõn VB2(3)

Nhược điểm:

- Người tỡm kiếm phải cú chuyờn mụn trong lĩnh vực tỡm kiếm

Thực vậy, do cõu hỏi đưa vào dưới dạng Logic nờn kết quả trả lại cũng cú giỏ trị Logic (Boolean). Một số tài liệu sẽ được trả lại khi thoả mĩn mọi điều kiện đưa vào. Như vậy muốn tỡm được tài liệu theo nội dung thỡ phải biết đớch xỏc về tài liệu.

- Việc Index cỏc tài liệu là tốn nhiều thời gian và phức tạp. - Tốn khụng gian để lưu trữ cỏc bảng Index.

- Cỏc tài liệu tỡm được khụng được xắp xếp theo độ chớnh xỏc của chỳng. - Cỏc bảng Index khụng linh hoạt. Khi cỏc từ vựng thay đổi (thờm, xúa,…)

thỡ chỉ số Index cũng phải thay đổi theo

Một phần của tài liệu LUẬN VĂN KHAI PHÁ DỮ LIỆU (DATAMINING) (Trang 29 -31 )

×