1. Tổng quan vềphương pháp lập chỉmục
1.3 Lập chỉmục tựđộng cho tài liệu
Vấn đề chính của lập chỉ mục tự động là xác định tự động thuật ngữchỉ mục cho các tài liệu. Trong các ngôn ngữ gốc Ấn – Âu thì tách từ có thể nói là đơn giản vì khoảng trắng là ký tự để phân biệt từ. Vấn đề cần quan tâm là xác định những từ này là từ khoá, có thể đại diện cho toàn bộ nội dung của tài liệu. Loại bỏ
các từ stop-wordcó tần số xuất hiện cao, những từ này thường chiếm đến 40-50% trong số các từ của một văn bản. Những từ này cóđộ phân biệt kém và không thể sử dụng để xác định nội dung của tài liệu. Trong tiếng Anh, có khoảng 250 từ. Số lượng từ này không nhiều lắm nên giải pháp đơn giản nhất là lưu các từ này vào trong một tự điển, và sauđó chỉ cần thực hiện so sánh từ cần phân tích với từ điển
để loại bỏ.
Bước tiếp theo là nhận ra các chỉ mục tốt. Để giảm bớt dung lượng lưu trữ, các thuật ngữcần được biến đổi về nguyên gốc (step of stemming đối với tiếng Anh), Phải loại bỏ đi các tiền tố, hậu tố, các biến thể số nhiều, quá khứ…Giải pháp là sử dụng một danh sách các hâu tố. Trong khi loại bỏ hậu tố thì những hậu tố dài được
ưu tiên loại bỏ trước, rồi sau đó mới loại bỏ những hậu tố ngắn hơn. Sauđây là một số vấn đề khi loại bỏ trong tiếng Anh:
Chỉ rõchiều dài tối thiểu của một từ gốcsau khi loại bỏ hậu tố. Ví dụ: việc loại bỏ hậu tố “ability” ra khỏi “computability” hay loại bỏ “ing” ra khỏi
“singing” là hợp lý. Tuy nhiên, những hậu tố đó không cần phải loại bỏ trong các từ “ability” và “sing”.
Nếu nhiều hậu tố được kết hợp vào một gốc thì ta sẽ áp dụng đệ quycho quá trình loại bỏ hậu tố vài lần hoặc lập từ điển hậu tố rồi loại bỏ những hậu tố dài hơn trước rồi đến các hậu tố ngắn sau. Ví dụ: “effectiveness” “effective”“effect”.
Trong tiếng Anh, từ gốc có thể bị biến đổisau khi đã loại bỏ hậu tố. Do đó, ta cần phải có những luật nhất định để phục hồi từ gốc. Chẳng hạn loại bỏ một trong hai kí tựtrùng nhau của những từ có sự xuất hiện b, d, d, l, m, n, p, r, s, tở cuối của các từ gốc sau khi đã loại bỏ hậu tố. Ví du như“beginning” “beginn”“begin”.
Một số ngoại lệphụ thuộc vào ngữ cảnh đặc biệt phải được chú ý, sử dụng các quy tắc cảm ngữ cảnh. Ví dụ: một quy tắc cho hậu tố “allic” chỉ rõ chiều dài cực tiểu của từ gốc là ba và không loại bỏ hậu tố sau “met” hoặc “ryst”, hoặc quy tắc chỉ loại bỏ hậu tố “yl” sau “n” hoặc “r”.
Tóm lại, giải quyết vấn đề hậu tố không quá khó nếu chúng ta có sẵn một danh sách chứa các hậu tố, một danh sách chứa các luật thêm các hậu tố và phục hồi từ gốc sau khi thêm hậu tố.