Mụ hỡnh phõn tớch cỳ phỏp

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB (Trang 28 - 29)

a.1. Quy tắc lưu trữ:

- Mỗi văn bản đều phải được phõn tớch cỳ phỏp và trả lại thụng tin chi tiết về chủ đề của văn bản đú.

- Sau đú tiến hành Index cỏc chủ đề của từng văn bản. Cỏch Index trờn chủ đề giống như khi Index trờn văn bản nhưng chỉ Index trờn cỏc từ xuất hiện trong chủ đề.

- Cỏc văn bản được quản lý thụng qua cỏc chủ đề này để cú thể tỡm kiếm được khi cú yờu cầu, cõu hỏi tỡm kiếm sẽ dựa trờn cỏc chủ đề trờn.

a.2. Quy tắc tỡm kiếm:

Cõu hỏi tỡm kiếm sẽ dựa vào cỏc chủ đề đó được Index. Vậy đầu tiờn phải tiến hành Index cỏc chủ đề. Cỏch Index trờn chủ đề giống như Index trờn toàn bộ cỏc từ cú trong chủ đề đú,

Cõu hỏi đưa vào cú thể được phõn tớch cỳ phỏp để trả lại một chủ đềvà tỡm kiếm trờn chủ đề đú

Như vậy bộ phận xử lý chớnh đối với một hệ CSDL xõy dựng theo mụ hỡnh này chớnh là hệ thống phõn tớch cỳ phỏp và đoỏn nhận nội dung văn bản.

a.2. Ưu điểm, nh−ợc điểm

Ưu điểm

Khi đó cú sẵn chủ đề thỡ việc tỡm kiếm theo phương phỏp này lại khỏ hiệu quả và đơn giản do tỡm kiếm nhanh và chớnh xỏc.

Đối với những ngụn ngữ đơn giản về mặt ngữ phỏp thỡ việc phõn tớch trờn cú thể đạt được mức độ chớnh xỏc cao và chấp nhận được.

Nh−ợc điểm

Chất lượng của hệ thống theo phương phỏp này hoàn toàn phụ thuộc vào chất lượng của hệ thống phõn tớch cỳ phỏpvà đoỏn nhận nội dung tài liệu. Trờn thực tế, việc xõy dựng hệ thống này là rất phức tạp, phụ thuộc vào đặc điểm của từng ngụn ngữ và đa số vẫn chưa đạt đến độ chớnh xỏc cao.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB (Trang 28 - 29)