Tạo các xâu tìm kiếm

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu (Trang 27 - 31)

Chương 1 TỔNG QUAN

2.1. Tạo các xâu tìm kiếm

Tạo các xâu tìm kiếmnhằm mục đích tạo dựng, bổ sung các xâu trong cơ sở dữ liệu (CSDL). Các xâu này sẽ được sử dụng làm tiêu chí tìm kiếm với nội dung trang web được tải về, việc tìm kiếm sẽ trả về kết quả có chứa xâu hay không. Nếu không chứa chứng tỏ URL không phù hợp cho việc lưu trữ ULR này hệ thống, ngược lại sẽ tiến hành lưu trữ trong hệ thống bao gồm thông tin xâu và URL thích hợp này. Tác giả xin giới thiệu hai phương pháp được dùng trong khuôn khổ luận văn này sẽ là:

- Tạo theo mode của xâu: chia xâu thành các thành các nhóm để tạo mode; - Tạo theo toán tử OR và toán tử AND

2.1.1. Tạo các xâu tìm kiếm dựa vào mode của xâu

Chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm và lấy thông tin liên quan đến cụm từ. Xâu được tác giả thành lập và thu thập với mục đích làm căn cứ để tìm kiếm xâu với nội dung tài liệu được tải về theo URL. Tác giả tiến hành xây dựng xây dựng tập các mod xâu theo một số tiêu trí nhất định được phân định theo danh mục

- Danh từ: Thể hiện các từ và cụm từ đại diện cho một danh từ cụ thể cần được tổ chức

- Khái niệm: Thể hiện các từ, cụm từ mang tên một khái niệm cụ thể về chủ đề - Sự kiện: Thể hiện các từ thông báo tin tức theo sự kiện xảy ra

- Địa điểm: thể hiện vị trí xảy ra sự kiện hoặc nội dung văn bản có thể đề cập tới - Thời gian: Thể hiện thông tin về thời gian trong nội dung văn bản được đề cập

tới

Ở đây chúng ta đề cập cách tạo các báo cáo phi cấu trúc từ các văn bản hoặc các cơ sở dữ liệu đang được lưu trữ tại các máy tính trên mạng nhờ vào các xâu để tìm kiếm.

Trong thời đại kỹ thuật số, hầu như các thông tin đều có thể tìm trên các Website. Tuy nhiên số Website và các công cụ khác để đưa thông tin lên Internet ngày càng nhiều, nội dung ngày càng phong phú và đa dạng. Các thông tin về một chủ đề nào đó có thể nằm rải rác trên các vùng, miền,...của mạng. Chúng ta sẽ gom nhóm chúng lại cùng với các thông tin liên quan và lưu lại dưới dạng tệp text hoặc dạng quan hệ trong cơ sở dữ liệu quan hệ.

Khi các thông tin trên được lưu dưới dạng text, có nghĩa là chúng ta có thể tạo ra báo cáo phi chuẩn với nội dung thay đổi phụ thuộc vào thời điểm thực hiện thuật toán.

Với cách làm này chúng ta sẽ được báo cáo phi cấu trúc và động. Còn khi các thông tin trên được lưu trong cơ sở dữ liệu, chúng ta có thể tạo ra các báo cáo dựa vào các chỉ tiêu (các thuộc tính) có trong cơ sở dữ liệu. Kiểu báo cáo này được gọi là báo cáo có cấu trúc và động.

Cách tạo ra báo cáo phi cấu trúc động hoặc có cấu trúc động là một vấn đề mới đang được quan tâm do có các ưu điểm như: tổng hợp được nhanh các thông tin cần thiết theo thời gian; gần gũi với người đọc, và những người cần thông tin hỗ trợ đê ra quyết định.

Để nắm các thông tin về một lĩnh vực nào đó - chúng ta gọi là chủ đề, người ta thường phải tìm kiếm thông qua một xâu mang toàn bộ hoặc một phần nội dung của chủ đề đó. Sau đó tự truy cập và đọc các đoạn văn bản trên các Website. Việc làm này mất nhiều thời gian và không hiệu quả khi cần các thông tin để ra quyết định. Để khắc phục chúng ta dùng cơ chế tự động tìm kiếm và tổng hợp thành các báo cáo phi cấu trúc hoặc có cấu trúc. Hơn nữa, chúng ta sẽ dùng các xâu nằm trong vùng lân cận xâu “mode” để giảm bớtthời gian tìm kiếm và tổng hợp.

Chọn các cụm từ theo mode

Mối quan hệ giữa chủ đề và các cụm từ:

Chọn các cụm từ thích hợp để dùng nó làm chủ đề tổng hợp rất quan trọng trong báo cáo. Nếu cụm từ làm chủ đề quá bao hàm (đồng nghĩa với số từ trong chủ đề quá ít) nội dung của báo cáo sẽ rất tản mạn.

Chẳng hạn chỉ dùng cụm từ “Báo cáo” để làm chủ đề, chúng ta sẽ có khoảng 10.600.000 bài viết, gồm:

Báo cáo số 1186/BC-BNN-VP ngày 5 tháng 5 năm 2008 về Công tác... 06-03- 2008,

Thông qua thuyết minh báo cáo tài chính mà biết được chế độ kế toán đang áp... Phần trình bày bằng số liệu phải thống nhất với số liệu trên báo cáo tài...

…..

Như vậy “số bài viết” chứa cụm từ thuộc chủ đề là một đại lượng ngẫu nhiên có quan hệ tần số tuyệt đối như sau: (xem Bảng 2.1. Số liệu tìm trên Internet để minh họa quan hệ giữa cụm từ và bài viết)

Từ bảng 2.1 chúng ta tạo ra bảng có cột tần số tích lũy (Xem bảng 2.2):

Lấy các cụm từ thuộc miền phần tư thứ hai và phần tư thứ ba là các cụm có quan hệ gần gũi nhất với “chủ đề”. Đồ thị theo tần số tích lũy (xem hình vẽ 2.1)

Stt Nội dung xâu liên quan chủ đề, X Số bài viết, tần số f

1 Báo cáo 10.600.000

2 Báo cáo thu hoạch lúa quý 1 năm 2008 2.090.000

3 Báo cáo thu hoạch lúa năm 2008 2.460.000

4 Lúa vụ mùa 3.720.000

5 Báo cáo thu hoạch 5.730.000

6 Báo cáo thu hoạch lúa vụ mùa năm 2008 2.110.000

7 Báo cáo thu hoạch lúa vụ mùa của năm 2.410.000

8 Báo cáo thu hoạch lúa vụ mùa quý 1 năm 2008 1.690.000

9 Báo cáo thu hoạch lúa vụ mùa 2.800.000

10 Thu hoạch lúa vụ mùa của năm 896.000

… .... ...

Bảng 2.1. Quan hệ giữa cụm từ và bài viết

Nội dung xâu liên quan chủ đề, X Số bài viết, tần số f

Tần số tích lũy cf

Báo cáo thu hoạch lúa năm 2008”. 2460000 0

“Báo cáo thu hoạch lúa quý 1 năm 2008” 2090000 2460000 “Báo cáo thu hoạch lúa vụ mùa của năm” 2410000 4550000 “Báo cáo thu hoạch lúa vụ mùa năm 2008” 2110000 6960000 “Báo cáo thu hoạch lúa vụ mùa quý 1 năm 2008” 1690000 9070000

“Báo cáo thu hoạch lúa vụ mùa”. 2800000 10760000

“Báo cáo thu hoạch” 5730000 13560000

“Báo cáo” 10600000 19290000

“Lúa vụ mùa” 3720000 29890000

“Thu hoạch lúa vụ mùa của năm” 896000 33610000

.... ... 34506000

Hình 2.1. Lớp mode các cụm từ 2.1.2. Tạo các xâu tìm kiếm dựa vào toán tử OR hoặc AND 2.1.2. Tạo các xâu tìm kiếm dựa vào toán tử OR hoặc AND

Bởi vì chúng ta luôn có thể biến đổi một biểu thức boole bất kỳ thành dạng chuẩn hội (xem“Quy tắc chuyển biểu thức logic bất kỳ về dạng chuẩn hội“ mục 1.2.2.2 chương 1) nên việc sử dụng vị từ hội sơ cấp trong một thuật toán không làm mất đi tính tổng quát của vấn đề nghiên cứu và do đó chúng ta tập trung vào cách tạo xâu chủ đề chỉ dựa vào phép hội.

Cho một tập PR = { p1, p2,... pm } là tập các vị từ đơn giản

Trong đó pi;= 1, 2,…, m là các biến mệnh đề đại diện cho xâu thứ i. Ví dụ từ bảng 1 ta có bảng 2.3

Mệnh đề hội sơ cấp được ký hiệu là M = { m1,m2... mn }, trong đó mk được xác định như sau:

mk= 

K i

p*ivới 1≤k≤ m, 1 ≤ j ≤ z

Với K là tập con bất kỳ của I = {1, 2, …, m},và p*i = pi hoặc p*i=pi.

cf, t ần s ốtí ch lũ y Các cụm Các cụm từ được chọn Thứ nhất Thứ hai Thứ ba Thứ tư

Độ tuyển hội sơ cấp và tần số truy xuất: (1) Độ tuyển hội sơ cấp.

Độ tuyển hội sơ cấp là số lượng các xâu được truy xuất bởi phương pháp tìm kiếm được đặc tả theo một mệnh hội sơ cấp đã cho.

(2) Tần số truy xuất. Tần số truy xuất của một phương pháp tìm kiếm là số lần sử dụng mệnh đềđó để tìm kiếm.

Hiệu quả của tạo các xâu tìm kiếm dựa vào toán tử AND hoặc OR

Do đặc tính của ngôn ngữ tự nhiên, để tránh sự dài dòng và phức tạp của xâu tìm kiếm, chúng ta có thể lược bớt các “từ” và xâu có sự trùng lặp bằng phương pháp Heuristic (hoặc bằng phương pháp tìm kiếm và tỉa – hay bằng phương pháp khai phá dữ liệu sẽ được nghiên cứu trong phần hướng phát triển)

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu (Trang 27 - 31)

Tải bản đầy đủ (PDF)

(59 trang)