2.2.1 Tạo chỉ mục cho tài liệu
Việc tỡm kiếm một chuỗi ký tự (một cụm từ) trong tài liệu nếu được thực hiện trực tiếp sẽ tốn kộm rất nhiều thời gian và rất khú kiểm soỏt. Vỡ thế, cỏc tài liệu cần phải được xử lý một cỏch thớch hợp trước khi thực hiện việc tỡm kiếm. Xử lý sử dụng cỏc từ khoỏ hay cỏc thuật ngữ để mụ tả nội dung cỏc tài liệu theo một khuụn dạng ngắn gọn hơn được gọi là “tạo chỉ mục cho tài liệu”. Trước khi cú sự trợ giỳp của mỏy tớnh, việc tạo chỉ mục được tạo thủ cụng, con người xỏc định trước một tập từ khoỏ để sử dụng cho việc tạo chỉ mục. Ngày nay, phần lớn cỏc hệ thống tạo chỉ mục cũng vẫn dựng tập cỏc từ khoỏ này cựng với sự trợ giỳp của mỏy tớnh, chỳng được cập nhật một cỏch tự động và việc tạo chỉ mục cũng được thực hiện một cỏch tự động. Cỏc từ khoỏ này cần được xỏc định trước mà chỳng được trớch lọc ra từ cỏc tài liệu. Tạo chỉ mục cú thể chia thành hai cỏch: thứ nhất tạo chỉ mục theo từ khoỏ (cú thể tạo chỉ mục theo từ khoỏ đơn hoặc theo từ phức), cỏch thứ hai là tạo chỉ mục toàn diện và tạo chỉ mục riờng biệt.
Tạo chỉ mục theo từ khoỏ đơn và phức, kiểu tạo chỉ mục này liờn quan đến kiểu tạo chỉ mục từ vựng được sử dụng nhiều trong cỏc hệ thống tỡm kiếm thụng tin.
48
Với tài liệu chỉ được sử dụng cỏc từ riờng biệt để tạo thành nội dung của tài liệu thỡ nờn sử dụng kiểu này để tạo chỉ mục cho tài liệu. Tạo chỉ mục theo từ khoỏ phức thực chất là nhúm và liờn kết cỏc từ đơn theo một quan hệ nào đú như quan hệ đồng nghĩa, quan hệ bao hàm,... Cỏc quan hệ này gọi chung là quan hệ ngữ nghĩa trong ngụn ngữ. Việc tạo chỉ mục cho cỏc quan hệ ngữ nghĩa thường theo hướng nhúm cỏc từ thành một tập và việc xuất hiện của một từ cú thể đại diện cho cả tập từ trong nhúm. Khi thấy xuất hiện bất kỳ một từ nào đú của nhúm trong yờu cầu tỡm kiếm thỡ kết quả cho sẽ là cỏc tài liệu cú chứa cỏc từ cũn lại trong nhúm.
Hỡnh 10 Mụ hỡnh chung của bộ tạo chỉ mục
Tạo chỉ mục toàn diện và riờng biệt, tạo chỉ mục kiểu này dựa trờn hai đặc tớnh của từ cú trong tài liệu phản ảnh lờn chủ đề của tài liệu hay khụng.
Ngụn ngữ chỉ mục là ngụn ngữ được sử dụng để mụ tả cỏc tài liệu và cỏc yờu cầu tỡm kiếm, cỏc phần tử của ngụn ngữ chỉ mục là cỏc từ hay cũn gọi là cỏc thuật ngữ chỉ mục, cỏc từ chỉ mục này cú thể được trớch lọc từ chớnh cỏc tài liệu được tạo chỉ mục hoặc cũng cú thể được xõy dựng một cỏch độc lập.
49
Một chỉ mục của tài liệu là cơ sở dữ liệu lưu trữ cỏc vị trớ của tất cả cỏc từ trong một nhúm tài liệu, trừ cỏc từ khụng cú ý nghĩa, trong tài liệu cú rất nhiều từ khụng cú ý nghĩa, chỳng phụ thuộc vào ngụn ngữ của tài liệu cũng như văn cảnh cụ thể. Vớ dụ trong tiếng Việt là cỏc từ và, vỡ vậy, do đú, tất nhiờn,...và trong tiếng Anh là cỏc từ but, if, and,... Chỉ mục của tài liệu cũng được coi tọa độ trước và sau của cỏc từ trong tài liệu. Cụ thể hơn, trong chỉ mục tọa độ trước, bất kỳ sự liờn kết nào của cỏc từ chỉ mục cũng đều cú thể được sử dụng như một nhón để xỏc định một lớp tài liệu. Trỏi lại, trong chỉ mục tọa độ sau, chỉ mục của cựng một lớp cỏc tài liệu cú thể xỏc định tại thời gian tỡm kiếm bằng việc kết hợp cỏc tài liệu đó được đỏnh nhón với cỏc từ chỉ mục riờng lẻ.
Sử dụng chỉ mục của một nhúm cỏc tài liệu, modul tỡm kiếm sẽ xỏc định được rất nhanh tài liệu cần tỡm mà khụng phải đọc lại toàn bộ cỏc tài liệu đú.
Một chỉ mục của tài liệu, mặc dự cú sự khỏc nhau phụ thuộc vào loại tài liệu được tạo chỉ mục, thường cú kớch thước bằng 1/4 của tài liệu gốc. Nếu nhiều tài liệu được tạo chỉ mục thỡ kớch thước của cỏc chỉ mục của cỏc tài liệu đú thường nhỏ hơn so với việc tạo chỉ mục riờng rẽ cho từng tài liệu.
2.2.2 Tạo lập chỉ mục theo nội dung và toàn văn bản
Cú thể tạo chỉ mục cho phần nội dung của tài liệu hoặc cũng cú thể tạo chỉ mục cho toàn bộ tài liệu.
Tạo lập chỉ mục theo nội dung là ỏp dụng chỉ mục chỉ cho phần nội dung của tài liệu. Tạo lập chỉ mục theo nội dung thường được dựng trong trường hợp cần phải tỏch nội dung (phần dữ liệu text) ra khỏi cấu trỳc của tài liệu. Tạo lập chỉ mục theo nội dung thường sử dụng cỏc bộ lọc xỏc định cấu trỳc, định dạng của tài liệu, nhờ đú xỏc định cỏc trường hợp hay cỏc thuộc tớnh, nơi chứa thụng tin của tài liệu. Do vậy mà Tạo lập chỉ mục theo nội dung cú thể tạo chỉ mục trờn cỏc tài liệu ở khuụn dạng khỏc nhau như HTML, Microsoft Word, Microsoft Exel, postcript,...và tài liệu Text núi chung.
50
Mặc dự thời gian để tạo chỉ mục cho một tài liệu sử dụng tạo lập chỉ mục theo nội dung là lớn hơn nhiều so với tạo lập chỉ mục toàn bộ văn bản nhưng nú lại giảm đỏng kể thời gian thực hiện cõu lệnh tỡm kiếm trờn tài liệu và cho kết quả chớnh xỏc hơn. Đú là bởi nú khụng tỡm trờn toàn bộ tài liệu mà chỉ tỡm kiếm trờn phần dữ liệu text của tài liệu.
Trong một số trường hợp, chẳng hạn như tỡm kiếm thụng tin trờn một newsgroup, việc sử dụng tạo lập chỉ mục theo nội dung rất tốt. Tạo lập chỉ mục theo nội dung cho phộp tỏch cỏc trường riờng biệt để tỡm kiếm. Đối với newsgroup thỡ nú là cỏc trường như „nhúm tin‟, „tờn người gửi‟, „thời gian gửi‟, „chủ đề‟ của tin, „nội
dung‟ của tin,...Khi đú nếu người sử dụng chỉ tỡm kiếm tờn người gửi thỡ hệ thống
chỉ cần tỡm tờn trường „tờn người gửi‟ mà khụng cần tỡm trờn cỏc trường khỏc. Do đú, thời gian tỡm kiếm giảm đi đỏng kể.
Tạo lập chỉ mục theo toàn bộ văn bản là ỏp dụng tạo chỉ mục cho toàn bộ tài liệu. Dễ dàng nhận thấy là tạo lập chỉ mục theo toàn bộ văn bản tạo ra cơ sở dữ liệu lớn hơn và việc tỡm kiếm thường tốn thời gian hơn so với tạo lập chỉ mục theo nội dung. Chớnh vỡ vậy, tạo lập chỉ mục theo toàn bộ văn bản thường chỉ được ỏp dụng cho cỏc tài liệu ở dạng text hoàn toàn.
2.2.3 Cỏc bước để tạo chỉ mục
Việc tạo index cho cỏc tài liệu bao gồm 2 bước chớnh:
Bước 1: Phõn tớch và „làm sạch‟ tài liệu. Mục đớch của bước này là phõn tớch
xem thụng tin được biểu diễn trong tài liệu như thế nào, từ đú quyết định thụng tin nào sẽ được tạo index, thụng tin nào cần loại bỏ. Bước này phõn tớch cấu trỳc tài liệu để lọc ra cỏc thụng tin cho việc tạo cơ sở dữ liệu tỡm kiếm. Chẳng hạn như: tiờu đề, tỏc giả, phần định dạng tài liệu, thõn tài liệu, cỏc biểu đồ, hỡnh ảnh trong tài liệu,...
Cỏc tài liệu Web thường sử dụng kỹ thuật biểu diễn thụng tin siờu văn bản (kỹ thuật hypertext hay hyper text make up language-HTML). Trong cỏc tài liệu HTML, cú sử dụng rất nhiều cỏc ký tự biểu diễn cỏc thuộc tớnh của tài liệu như định
51
dạng đoạn văn bản, định dạng font chữ, chốn cỏc ảnh, cỏc bảng biểu, audio,...Cỏc ký tự này được gọi là cỏc thẻ định dạng tài liệu, chỳng giỳp cho việc tổ chức và hiển thị tài liệu. Xem mó nguồn một file HTML ta thấy cú rất nhiều cỏc thẻ khỏc nhau như <TILE>, <COMMENT>, <FONT>, <FRAMEST>, ... rừ ràng là cỏc tài liệu HTML chứa thụng tin „nhiều hơn‟ cỏc tài liệu text thụng thường. Chỳng ta khụng cần thiết tạo chỉ mục cho cỏc thẻ này.
Ngoài cỏc tài liệu dạng text, là cỏc tài liệu sử dụng mó ASCCII để biểu diễn thụng tin mà ta cũn gọi là cỏc tài liệu cú thể soạn thảo được, cũn cú cỏc tài liệu ở cỏc khuụn dạng khỏc như cỏc tài liệu dạng postcript chẳng hạn. Cỏc định dạng tài liệu này cấm việc soạn thảo trờn chỳng và do đú cũng cấm việc tỡm kiếm, bởi vỡ chỳng được thể hiện ở khớa cạnh ảnh nhiều hơn là ở khớa cạnh văn bản. Như vậy, đối với tỡm kiếm dữ liệu văn bản chỳng ta cần xõy dựng cỏc cụng cụ để chuyển tải cỏc tài liệu cú định dạng khỏc nhau sang định dạng text và trớch chọn ra cỏc thụng tin dạng văn bản để tỡm kiếm.
Bước 2: Trớch chọn từ khoỏ để tạo tham chiếu hay cũn gọi là tạo chỉ mục.
Trờn cơ sở tài liệu đó được phõn tớch ở bước 1 để tạo cỏc tham chiếu qua cỏc từ khúa đến tài liệu để khi tỡm kiếm đến cỏc từ khúa này thỡ cú thể xỏc định được ngay tài liệu cần tỡm. Đối với tỡm kiếm văn bản thỡ từ khúa thường là chớnh cỏc từ biểu thị nội dung văn bản (sau khi đó lọc cỏc từ khụng cần tạo chỉ mục). Cú thể sử dụng phương phỏp tạo chỉ mục thủ cụng hay tạo chỉ mục tự động.
Tạo chỉ mục thủ cụng là tạo chỉ mục bởi con người. Con người đọc cỏc tài liệu và xỏc định xem tài liệu nào, thậm chớ những từ nào sẽ được tạo chỉ mục. Vớ dụ như, Yahoo thay bằng việc bộ tỡm duyệt tỡm kiếm cỏc site và trả lại cỏc thụng tin thỡ những người tạo chỉ mục sẽ tự đọc cỏc tài liệu này. Nếu một site nào đú cú cỏc thụng tin phự hợp với cỏc sự phõn loại của Yahoo thỡ site đú sẽ được tạo chỉ mục và đưa vào mục phõn loại. Như vậy, việc phõn loại là cảm tớnh nhưng khỏ chớnh xỏc ở mức độ rộng (phõn loại cả site) cũn ở mức chi tiết từng tài liệu khụng thể làm được do số lượng tài liệu là quỏ lớn.
52
Tạo chỉ mục tự động là sử dụng cỏc giải thuật, cỏc phần mềm để trớch lọc thụng tin và tạo chỉ mục cho cỏc tài liệu. Đõy là một phương phỏp chiếm ưu thế trong vấn đề xử lý và tỡm kiếm tài liệu trờn Internet. Hệ tỡm kiếm cú một phần mềm gọi là bộ tỡm duyệt (hay cũn gọi là spider, robot) tự động gửi yờu cầu đến cỏc site trờn Internet để lấy về cỏc tài liệu một cỏch tự động, làm việc khụng ngừng ngày cũng như đờm. Cỏc tài liệu sau khi lấy về được tự động trớch lọc thụng tin và tạo index. Mỗi một bộ tỡm duyệt như vậy thường tạo chỉ mục từ 3 đến 10 triệu trang Web mỗi ngày. Ngoài một số bộ tỡm duyệt tỡm kiếm cỏc tài liệu một cỏch ngẫu nhiờn, đa số cỏc bộ tỡm duyệt khỏc lấy thụng tin từ cỏc trang Web đó được tạo chỉ mục trước đú để lấy về cỏc trang tiếp theo hoặc sử dụng những chỉ dẫn bởi người quản trị hệ tỡm kiếm để tỡm kiếm[12].
Chỳ ý rằng, cỏc bộ tỡm duyệt Web chỉ lấy và lưu trữ một phần trang Web vào cơ sở dữ liệu tại thời điểm đú. Điều đú cú nghĩa là khi người dựng đưa ra một cõu hỏi tỡm kiếm thỡ hệ tỡm kiếm chỉ tỡm kiếm trờn phần dữ liệu mà cú nú. Chỉ khi người dựng chọn một trang Web cụ thể từ kết quả tỡm kiếm thỡ lỳc đú họ mới truy nhập được vào tài liệu. Điều này giải thớch tại sao một số liờn kết trong kết quả tỡm kiếm là khụng cú giỏ trị và thể hiện tầm quan trọng của việc hệ tỡm kiếm cập nhật lại dữ liệu của mỡnh.
Do hạn chế về mặt tốc độ và thời gian nờn cú những giới hạn đối với cỏc hệ tỡm kiếm, chẳng hạn như: bộ tỡm duyệt Web của Excite, cỏc thụng tin mà nú cú thể lấy về trong 30 giõy cho một tài liệu. Trong khi đú Lycol lấy 275 ký tự đầu vào và Infoseek lấy 16K đầu vào của trang Web để tạo chỉ mục [10].