Mô hình Logic

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 43 - 45)

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

nội dung văn bản được quản lý theo các chỉ số Index đó. Mỗi văn bản được đánh chỉ số theo quy tắc liệt kê các từ có nghĩa trong các văn bản với vị trắ xuất hiện của nó trong văn bản. Từ có nghĩa là từ mang thông tin chắnh về các văn bản lưu trữ, khi nhìn vào nó người ta có thể biết chủ đề của văn bản cần biểu diễn.

Tiến hành Index các văn bản đưa vào theo danh sách các từ khoá nói trên. Với mỗi từ khóa người ta sẽ đánh số thứ tự vị trắ xuất hiện của nó và lưu lại chỉ số đó cùng với mã văn bản chứa nó. Cách biểu diễn này cũng được các máy tìm kiếm ưa dùng.

Vắ dụ: Có hai văn bản với mã tương ứng là VB1,VB2.

ỘCộng hòa xã hội chủ nghĩa Việt NamỢ (VB1) Ộ Việt Nam dân chủ cộng hòaỢ (VB2)

Khi đó ta có cách biểu diễn như sau:

Từ mục Mã VB_Vị trắ XH Cộng VB1(1), VB2(5) Hòa VB1(2), VB2(6) Xã VB1(3) Hội VB1(4) Chủ VB1(5), VB2(4) Nghĩa VB1(6) Việt VB1(7), VB2(1) Nam VB1(8), VB2(2) Bảng 2.1. Vắ dụ về mô hình logic

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- Khi biểu diễn văn bản theo phương pháp này người ta đưa ra cách tìm kiếm như sau: Câu hỏi tìm kiếm được đưa ra dưới dạng Logic, tức là gồm một tập hợp các phép toán (AND, OR,Ầ) được thực hiện trên các từ hoặc cụm từ. Việc tìm kiếm sẽ dựa vào bảng Index đã tạo ra và kết quả trả lại là các văn bản thoả mãn toàn bộ các điều kiện trên.

- Câu hỏi tìm kiếm linh hoạt: Người dùng có thể sử dụng các kắ tự đặc biệt trong câu hỏi tìm kiếm mà không làm ảnh hưởng đến độ phức tạp của phép tìm kiếm.

Vắ dụ: muốn tìm từ ỘtaỢ thì kết quả sẽ trả lại các văn bản có chứa các từ ỘtaỢ, ỘtaoỢ, ỘtayỢ,Ầlà các từ bắt đầu bằng từ ỘtaỢ

Kắ tự % được gọi là kắ tự đại diện (wildcard character). Ngoài ra, bằng các phép toán Logic các từ cần tìm có thể tổ chức thành các câu hỏi một cách linh hoạt. Vắ dụ: Cần tìm từ [tôi, ta, tao], dấu Ộ[]Ợ sẽ thay cho nghĩa của từ ỘhoặcỢ - thể hiện việc tìm kiếm trên một trong số nhiều từ trong nhóm. Đây thực ra là một cách thể hiện linh hoạt phép toán OR trong đại số Logic thay vì phải viết là: Tìm các tài liệu có chứa từ ỘtôiỢ hoặc từ ỘtaỢ hoặc ỘtaoỢ.

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 43 - 45)