2.1.2. Tạo các xâu tìm kiếm dựa vào toán tử OR hoặc AND
Bởi vì chúng ta luôn có thể biến đổi một biểu thức boole bất kỳ thành dạng chuẩn hội (xem“Quy tắc chuyển biểu thức logic bất kỳ về dạng chuẩn hội“ mục 1.2.2.2 chương 1) nên việc sử dụng vị từ hội sơ cấp trong một thuật toán không làm mất đi tính tổng quát của vấn đề nghiên cứu và do đó chúng ta tập trung vào cách tạo xâu chủ đề chỉ dựa vào phép hội.
Cho một tập PR = { p1, p2,... pm } là tập các vị từ đơn giản
Trong đó pi;= 1, 2,…, m là các biến mệnh đề đại diện cho xâu thứ i. Ví dụ từ bảng 1 ta có bảng 2.3
Mệnh đề hội sơ cấp được ký hiệu là M = { m1,m2... mn }, trong đó mk được xác định như sau:
mk=
K i
p*ivới 1≤k≤ m, 1 ≤ j ≤ z
Với K là tập con bất kỳ của I = {1, 2, …, m},và p*i = pi hoặc p*i=pi.
cf, t ần s ốtí ch lũ y Các cụm Các cụm từ được chọn Thứ nhất Thứ hai Thứ ba Thứ tư
Độ tuyển hội sơ cấp và tần số truy xuất: (1) Độ tuyển hội sơ cấp.
Độ tuyển hội sơ cấp là số lượng các xâu được truy xuất bởi phương pháp tìm kiếm được đặc tả theo một mệnh hội sơ cấp đã cho.
(2) Tần số truy xuất. Tần số truy xuất của một phương pháp tìm kiếm là số lần sử dụng mệnh đềđó để tìm kiếm.
Hiệu quả của tạo các xâu tìm kiếm dựa vào toán tử AND hoặc OR
Do đặc tính của ngôn ngữ tự nhiên, để tránh sự dài dòng và phức tạp của xâu tìm kiếm, chúng ta có thể lược bớt các “từ” và xâu có sự trùng lặp bằng phương pháp Heuristic (hoặc bằng phương pháp tìm kiếm và tỉa – hay bằng phương pháp khai phá dữ liệu sẽ được nghiên cứu trong phần hướng phát triển)
2.2. Cơ sở dữ liệu quan hệ [2]
Do việc thăm dò và tổng hợp không phải chỉ cho một chủ đề mà là nhiều chủ đề, vì thế chúng ta cần một bảng để lưu nội dung của các chủ đề cần cho mục đích trên. Chẳng hạn, bảng Article_subjectcó dạng sau đây (Xem bảng 2.4):
p1 Báo cáo
p2 Báo cáo thu hoạch lúa quý 1 năm 2008 p3 Báo cáo thu hoạch lúa năm 2008 p4 Lúa vụ mùa
p5 Báo cáo thu hoạch
p6 Báo cáo thu hoạch lúa vụ mùa năm 2008 p7 Báo cáo thu hoạch lúa vụ mùa của năm
p8 Báo cáo thu hoạch lúa vụ mùa quý 1 năm 2008 p9 Báo cáo thu hoạch lúa vụ mùa
… …
Tên trường Kiểu dữ liệu Độ rộng Ghi chú
subjectId Int 10 Khoá chính
title Varchar 200 Chủ đề cần nghiên cứu và tổng hợp
keyword Text Lưu trữ các từ khóa cần tìm kiếm
trong chủ đề
numberLink Int 4 Độ sâu khi quét
Bảng 2.4. Cấu trúc bảngchủ đề tìm kiếm
Ví dụ dữ liệu (minh hoạ) của bảng Article_subject có thể như sau (bảng 2.5):
Id title keyword numberLink
1 Chính trị Bạo động, Tây nguyên, Nổi loạn 50 2 Phạm pháp vị thành
niên
Tội phạm,Trẻ em vị thành niên, Vi phạm pháp luật
50 3 Bất động sản 2015 Thị trường bất động sản đang nóng lên 50
Bảng 2.5. Nội dung bảng chủ đề tìm kiếm Bảng tổng hợp tin tức (Article_content) Bảng tổng hợp tin tức (Article_content)
Bảng này được dùng để lưu giữ các văn bản có chứa cụm từ thuộc chủ đề đã tạo. Với các thông tin dữ liệu thu thập thì các thông tin chính căn bản được mô tả dựa trên các trường theo bảng mô tả dưới đây. Tùy vào mục đích thu thập người dùng có thể sửa đổi cho phù hợp. Ví dụ bảng 2.6
STT Tên trường Kiểu dữ liệu
Độ
rộng Ghi chú
1 articleId int 10 Khóa chính
2 subjectId int 10 Khóa ngoại liên kết với chủ đề 3 websource varchar 150 Địa chỉ Website nguồn thu thập
được
4 title varchar 200 Tiêu đề bài viết
5 short_des text Mô tả ngắn gọn
6 detail mediumtext Chi tiết bài viết mã HTML
7 plain_text text Chi tiết bài viết đã loại bỏ HTML
8 author varchar 50 Tác giả
9 publish varchar 20 Ngày đăng
10 … … … …
Bảng 2.6. Cấu trúc bảngtổng hợp tin tức
Ví dụ minh họa cho dữ liệu bảng tổng hợp tin tức (bảng 2.7)
ID SId websource title short_des detail plain_text author publish 1 1 http://url.com Title1 Mô tả tin <html>
nội dung </html>
Nội dung Abc 2015- 11-01
2 1 http://url2.com Title2 Mô tả tin2 <html> nội dung2 </html> Nội dung2 XYZ 2015- 10-10
Schema mối quan hệ giữa các bảng: