Tiền xử lý snippet

Một phần của tài liệu Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai docx (Trang 28 - 29)

3. Phƣơng phỏp trọng số mở rộng đối với xấp xỉ trờn

3.1.1.Tiền xử lý snippet

Đõy là một pha vụ cựng quan trọng, nú ảnh hưởng rất lớn đến quỏ trỡnh thực hiện phõn cụm. Nhiệm vụ của pha này là làm giảm số từ trong mỗi snippet, do vậy nú cú tỏc dụng làm giảm độ phức tạp tớnh toỏn của cỏc pha sau và làm nõng cao chất lượng pha 2 - trớch chọn từ đặc trưng của snippet.

Cụng việc của pha tiền xử lý snippet:

a.Phõn tớch từ vựng

Phõn tớch từ vựng chớnh là nhận dạng từ trong tài liệu. Kết quả cụng việc việc này là tạo ra tập từ khỏc biệt.

Tuy nhiờn trong quỏ trỡnh phõn tớch từ cần phải chỳ ý một vài trường hợp đặc biệt, chẳng hạn như số, dấu ngoặc, dấu chấm cõu và trường hợp chữ hoa chữ thường; để cú cỏch ứng xử đặc biệt. Vớ dụ về cỏch ứng xử đặc biệt, số thường bị loại ra trong khi phõn tớch vỡ một mỡnh nú khụng mang lại một ý nghĩa nào cho tài liệu (ngoại trừ một vài trường hợp đặc biệt, vớ dụ trong thu thập thụng tin về lĩnh vực lịch sử). Dấu chấm cõu, vớ dụ như “.”, “!”, “?”, “-“, v.v… cũng thường được loại ra mà khụng cú ảnh hưởng gỡ đến nội dung của tài liệu. Tuy nhiờn cần phải chỳ ý trong một vài trường hợp, chẳng hạn đối với những từ ghộp nối (state-of- the-art) là khụng được phộp bỏ dấu “-“, vỡ sẽ làm thay đổi nghĩa của từ.

b. Loại bỏ stop-words

Những từ mà xuất hiện quỏ nhiều trong cỏc snippet của toàn tập kết quả, thường thỡ khụng giỳp ớch gỡ trong việc phõn biệt nội dung của cỏc tài liệu. Vớ dụ, những từ “web”, “site”, “link”, “www”, v.v… là xuất hiện hầu hết trong cỏc snippet Những từ như vậy được gọi là stop-words. Ngoài ra, những từ như là “a”, “the” (mạo từ”, “in” (giới từ) , liờn từ “but”, động từ phổ biến cú dạng “to”, “be”, và một số trạng từ và tớnh từ đặc biệt cũng được xem là stop-words.

Vỡ đặc điểm của stop-words nờn chỳng được loại bỏ mà khụng ảnh hưởng đến cỏc pha sau.

c. Stemming

Stemming là loại bỏ tiền tố và hậu tố của từ để biến đổi nú thành từ gốc. Vỡ trong thực tế một từ gốc cú thể cú nhiều hỡnh thỏi biến đổi, chẳng hạn như động từ, danh từ, tớnh từ, trạng từ; và giữa chỳng cú mối quan hệ ngữ nghĩa. Vớ dụ như những từ: “clusters”, “clustering”, “clustered” là cú cựng mối quan hệ với từ “cluster”. Do vậy cần phải Stemming để làm giảm được số lượng từ mà vẫn khụng làm ảnh hưởng đến nội dung tài liệu.

Tuy nhiờn cú một vấn đề khụng tốt xảy ra khi stemming, vỡ giải thuật stemming sử dụng một tập cỏc quy tắc đơn giản để loại bỏ tiền tố/hậu tố. Do vậy nú cú thể sinh ra cỏc từ khụng chớnh xỏc. Vớ dụ như “computing”, “computation” sau khi stemming sẽ cũn là “comput” trong khi đú từ đứng phải là “compute’.

Một phần của tài liệu Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai docx (Trang 28 - 29)