Lớp mode các cụm từ

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu (Trang 30 - 34)

2.1.2. Tạo các xâu tìm kiếm dựa vào toán tử OR hoặc AND

Bởi vì chúng ta luôn có thể biến đổi một biểu thức boole bất kỳ thành dạng chuẩn hội (xem“Quy tắc chuyển biểu thức logic bất kỳ về dạng chuẩn hội“ mục 1.2.2.2 chương 1) nên việc sử dụng vị từ hội sơ cấp trong một thuật toán không làm mất đi tính tổng quát của vấn đề nghiên cứu và do đó chúng ta tập trung vào cách tạo xâu chủ đề chỉ dựa vào phép hội.

Cho một tập PR = { p1, p2,... pm } là tập các vị từ đơn giản

Trong đó pi;= 1, 2,…, m là các biến mệnh đề đại diện cho xâu thứ i. Ví dụ từ bảng 1 ta có bảng 2.3

Mệnh đề hội sơ cấp được ký hiệu là M = { m1,m2... mn }, trong đó mk được xác định như sau:

mk= 

K i

p*ivới 1≤k≤ m, 1 ≤ j ≤ z

Với K là tập con bất kỳ của I = {1, 2, …, m},và p*i = pi hoặc p*i=pi.

cf, t ần s ốtí ch lũ y Các cụm Các cụm từ được chọn Thứ nhất Thứ hai Thứ ba Thứ tư

Độ tuyển hội sơ cấp và tần số truy xuất: (1) Độ tuyển hội sơ cấp.

Độ tuyển hội sơ cấp là số lượng các xâu được truy xuất bởi phương pháp tìm kiếm được đặc tả theo một mệnh hội sơ cấp đã cho.

(2) Tần số truy xuất. Tần số truy xuất của một phương pháp tìm kiếm là số lần sử dụng mệnh đềđó để tìm kiếm.

Hiệu quả của tạo các xâu tìm kiếm dựa vào toán tử AND hoặc OR

Do đặc tính của ngôn ngữ tự nhiên, để tránh sự dài dòng và phức tạp của xâu tìm kiếm, chúng ta có thể lược bớt các “từ” và xâu có sự trùng lặp bằng phương pháp Heuristic (hoặc bằng phương pháp tìm kiếm và tỉa – hay bằng phương pháp khai phá dữ liệu sẽ được nghiên cứu trong phần hướng phát triển)

2.2. Cơ sở dữ liệu quan hệ [2]

Do việc thăm dò và tổng hợp không phải chỉ cho một chủ đề mà là nhiều chủ đề, vì thế chúng ta cần một bảng để lưu nội dung của các chủ đề cần cho mục đích trên. Chẳng hạn, bảng Article_subjectcó dạng sau đây (Xem bảng 2.4):

p1 Báo cáo

p2 Báo cáo thu hoạch lúa quý 1 năm 2008 p3 Báo cáo thu hoạch lúa năm 2008 p4 Lúa vụ mùa

p5 Báo cáo thu hoạch

p6 Báo cáo thu hoạch lúa vụ mùa năm 2008 p7 Báo cáo thu hoạch lúa vụ mùa của năm

p8 Báo cáo thu hoạch lúa vụ mùa quý 1 năm 2008 p9 Báo cáo thu hoạch lúa vụ mùa

… …

Tên trường Kiểu dữ liệu Độ rộng Ghi chú

subjectId Int 10 Khoá chính

title Varchar 200 Chủ đề cần nghiên cứu và tổng hợp

keyword Text Lưu trữ các từ khóa cần tìm kiếm

trong chủ đề

numberLink Int 4 Độ sâu khi quét

Bảng 2.4. Cấu trúc bảngchủ đề tìm kiếm

Ví dụ dữ liệu (minh hoạ) của bảng Article_subject có thể như sau (bảng 2.5):

Id title keyword numberLink

1 Chính trị Bạo động, Tây nguyên, Nổi loạn 50 2 Phạm pháp vị thành

niên

Tội phạm,Trẻ em vị thành niên, Vi phạm pháp luật

50 3 Bất động sản 2015 Thị trường bất động sản đang nóng lên 50

Bảng 2.5. Nội dung bảng chủ đề tìm kiếm Bảng tổng hợp tin tức (Article_content) Bảng tổng hợp tin tức (Article_content)

Bảng này được dùng để lưu giữ các văn bản có chứa cụm từ thuộc chủ đề đã tạo. Với các thông tin dữ liệu thu thập thì các thông tin chính căn bản được mô tả dựa trên các trường theo bảng mô tả dưới đây. Tùy vào mục đích thu thập người dùng có thể sửa đổi cho phù hợp. Ví dụ bảng 2.6

STT Tên trường Kiểu dữ liệu

Độ

rộng Ghi chú

1 articleId int 10 Khóa chính

2 subjectId int 10 Khóa ngoại liên kết với chủ đề 3 websource varchar 150 Địa chỉ Website nguồn thu thập

được

4 title varchar 200 Tiêu đề bài viết

5 short_des text Mô tả ngắn gọn

6 detail mediumtext Chi tiết bài viết mã HTML

7 plain_text text Chi tiết bài viết đã loại bỏ HTML

8 author varchar 50 Tác giả

9 publish varchar 20 Ngày đăng

10 … … … …

Bảng 2.6. Cấu trúc bảngtổng hợp tin tức

Ví dụ minh họa cho dữ liệu bảng tổng hợp tin tức (bảng 2.7)

ID SId websource title short_des detail plain_text author publish 1 1 http://url.com Title1 Mô tả tin <html>

nội dung </html>

Nội dung Abc 2015- 11-01

2 1 http://url2.com Title2 Mô tả tin2 <html> nội dung2 </html> Nội dung2 XYZ 2015- 10-10

Schema mối quan hệ giữa các bảng:

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu (Trang 30 - 34)

Tải bản đầy đủ (PDF)

(59 trang)