Từ những tài liệu nguồn, máy sẽ loại bỏ stop words để đưa ra một bảng các từ chỉ mục. Danh sách stop words có thể có sẵn để việc lọc bỏ trở lên nhanh chóng và thuận lợi hơn.
Stop words cịn phụ thuộc vào mục đích tìm kiếm mà các trang tìm kiếm đặt ra. Trong trường hợp tìm kiếm theo từ và nghĩa thì có vẻ như khơng cần thiết nhưng stop words lại đóng vai trị lớn trong các trang tìm kiếm tìm kiếm website. Máy tìm kiếm của các trang này chấp nhận chúng để dễ xử lý những tên website chứa nhiều stop words mà người dùng tự đặt.
Ví dụ: trang tìm kiếm website
http://www.dogpile.com/info.dogpl/search/home
Tóm lại, truy vấn bản chất mang tính chất cá nhân của người tìm kiếm, do đó, thơng tin ngữ nghĩa có thể đảm bảo hệ thống tìm kiếm đưa ra kết quả, nhưng đối với phương diện từ, chắc chắn sẽ có những từ thừa, khơng mang nhiều giá trị thông tin.
3.2. Quan niệm stop words
3.2.1. Định nghĩa stop words
Định nghĩa stop words thường được rút ra trong quá trình thống kê để đưa ra một danh sách. Dựa vào danh sách đó để đưa ra những định nghĩa, và những định nghĩa này cũng tùy thuộc vào từng mục đích sử dụng. Hệ thống tìm kiếm bằng tiếng
Anh phổ biến vì vậy định nghĩa cũng thiên về việc định nghĩa stop words theo ngôn ngữ này.
Theo wiki, stop words được quan niệm như sau “In computing, stop
words are words which are filtered out prior to, or after, processing of natural
language data (text). There is not one definite list of stop words which all tools use, if even used. Some tools specifically avoid removing them to support phrase search. Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as the, is, at, which andon. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'. Other cơng cụ tìm kiếm remove some of the most common words—including lexical words, such as "want"—from query in order to improve performance”
Tức là: Đối với tin học, những stop words là những từ được lọc bỏ trước hoặc trong q trình xử lý ngơn ngữ tự nhiên. Khơng có một định nghĩa cụ thể về danh sách những stop words mà tất cả các công cụ đã và đang sử dụng. Một vài công cụ đặc biệt không gỡ bỏ chúng để hỗ trợ cho tìm kiếm cụm từ. Bất kỳ một nhóm từ nào được lựa chọn vào stop words đều có mục đích nhất định. Ví dụ, trong máy tìm kiếm , những từ quá phổ biến hoặc những từ có giới hạn chức năng ngữ pháp ví dụ, trong tiếng anh: the, is, at, which and on…Trong trường hợp này, những stop words sẽ gây ra vấn đề khi tìm kiếm các cụm từ bao gồm chúng, đặc biệt là những tên 'The Who', 'The The', or 'Take That' . Những cơng cụ tìm kiếm khác thì
gỡ bỏ những từ quá chung chung bao gồm những thực từ như “want” từ query để cải thiện hiệu suất tìm kiếm.
Quan niệm “In computer cơng cụ tìm kiếms, a stop word is a commonly used
word (such as "the") that a cơng cụ tìm kiếm has been programmed to ignore, both when indexing entries for searching and when retrieving them as the result of a search query. When building the index, most engines are programmed to remove certain words from any index entry. The list of words that are not to be added is
called a stop list. Stop words are deemed irrelevant for searching purposes because they occur frequently in the language for which the indexing engine has been tuned. In order to save both space and time, these words are dropped at indexing time and then ignored at search time. Some cơng cụ tìm kiếm allow you to include a stop word in your search by putting an inclusion (plus sign) before each stop word in your query.” được hiểu là:
“Trong cơng cụ tìm kiếm máy tính, một từ stop word là một từ thường được
sử dụng (ví dụ “the”) đã được lập trình để bỏ qua cả khi xây dựng chỉ mục để tìm kiếm và kết quả tìm kiếm bao gồm có nó. Khi xây dựng các chỉ số, hầu hết các máy tìm kiếm đều được lập trình loại bỏ chúng ra khỏi chỉ mục. Danh sách các từ không được thêm vào được gọi là stop words. Những stop words không liên quan đến mục đích tìm kiếm bởi vì chúng xuất hiện thường xuyên trong các ngôn ngữ và được điều chỉnh từ các công cụ lập chỉ mục. Để tiết kiệm không gian và thời gian, những từ này cần phải loại bỏ trong lúc lập chỉ mục để tiết kiệm thời gian tìm kiếm. Một số cơng cụ tìm kiếm cho phép chúng ta có thể sử dụng cả các từ stop word để tìm kiếm bằng cách đặt dấu cộng trước stop words trong mỗi truy vấn”.
Trong quá trình xử lý ngơn ngữ tự nhiên, ta cũng thấy được một số quan điểm về stop words như sau “Stop words là những từ xuất hiện rất nhiều trong các
văn bản mà khơng có ý nghĩa nhiều đối với văn bản. Trong tiếng anh là các từ như a, an, the, is... Việc loại bỏ stop words được xác định bằng cách loại bỏ các từ mà tần suất xuất hiện vượt quá một ngưỡng giá trị nào đó.”
Hoặc đơn giản hơn, stop words được cho là: Để tiết kiệm không gian lưu trữ
và gia tăng tốc độ tìm kiếm, các cơng cụ tìm kiếm sẽ khơng ghi nhận lại những từ quá phổ biến, quá chung chung.
Như vậy, stop words qua những quan niệm ở trên gồm có những đặc điểm sau: + Stop words là những từ thường xuyên xuất hiện trong các văn bản.
+ Stop words là những từ khơng mang thơng tin chính của truy vấn mà mang nghĩa chung chung.
Tuy nhiên những quan niệm như trên chưa khái quát được đặc điểm ngôn ngữ của những từ này.
3.2.2. Ý nghĩa của stop words trong các máy tìm kiếm
Như đã trình bày ở trên, stop word là những từ quá phổ biến hoặc quá chung chung thường không cần sử dụng trong công cụ tìm kiếm vì khơng ảnh hưởng nhiều đến nội dung văn bản để tiết kiệm khơng gian lưu trữ và tăng tốc độ tìm kiếm.
Tiết Kiệm Khơng Gian
Xem ví dụ sau:
The way to the school is long and hard when walking in the rain
Từ "The" xuất hiện 3 lần, để tiết kiệm khơng gian, các SE có thể thay thế nó bởi một "ký tự đánh dấu". Ví dụ trên sau khi thay thế sẽ như sau:
* way to * shool is long and hard when walking in * rain
Những nội dung cần thiết đã được đánh dấu những vẫn không làm mất đi ý nghĩa của văn bản. (Nguồn internet)
Gia Tăng Tốc Độ Tìm Kiếm và độ chính xác của kết quả tìm kiếm
Người dùng thường có những mẹo để có thể tìm được thơng tin một cách chính xác và nhanh nhất. Trên cơng cụ google, chúng ta sẽ có những mẹo sau đây:
Cách 1: Hãy tự nhiên cho google biết những gì bạn thực sự muốn tìm, hơn là
danh sách những từ đồng nghĩa. Thông thường, bạn cần tách các cụm từ riêng biệt trong một chuỗi kí tự, sao cho chúng phản ánh được nhiều nội dung nhất. Tránh ghi một câu quá dài dòng, con nhện google sẽ rất khó lập chỉ mục trong trường hợp tương tự vậy.
Ví dụ: Thay vì gõ nguyên câu: “nguồn lợi cá ven bờ vùng biển bắc trung bộ
việt nam”, hãy tách thành những cụm từ sau: nguồn lợi AND cá ven bờ AND bắc trung bộ AND việt nam
Cách 2: Sử dụng từ hiếm càng nhiều thuật ngữ chuyên ngành, từ hiếm được
sử dụng, xác suất gặp các nội dung riêng biệt càng cao. Điều này đặc biệt hữu ích nếu bạn có ý định tìm tài liệu chun ngành. Sử dụng thuật ngữ chuyên môn sẽ tăng khả năng thành công lên rất nhiều.
Cách 3: Đặt những từ khóa quan trọng nhất lên hàng đầu: Từ nhưng kinh
nghiệm có được với google, nên có sự ưu tiên trong việc đặt thứ tự các từ khóa khác nhau; sẽ mang lại kết quả tức thời.
Cách 4: Loại bỏ bớt các cụm từ hoặc nội dung tương đương: Kĩ thuật này tập
trung sử dụng kí tự “-“. Vd: Bạn cần thơng tin về bài báo nguồn lợi san hơ ở tạp chí nơng nghiệp và phát triển nơng thơn và các tạp chí khác, riêng nội dung ở tạp chí đại học huế thì khơng cần. Hãy thử: “nguồn lợi san hơ”, tạp chí, nơng nghiệp phát triển nơng thơn, -“đại học huế” –tạp chí
Cách 5: Phát âm đúng: Đây là lưu ý khi bạn sử dụng tiếng Anh hoặc các
ngơn ngữ khác (ngồi tiếng Việt). Việc phát âm sai sẽ dẫn dến sai trong cụm từ khóa sử dụng. Do vậy, hãy đảm bảo việc kết hợp từ điển để có kết quả chính xác.
Cách 6: Nhận biết các “stop words”: Nhiều cơng cụ tìm kiếm thường bỏ qua
những từ thông thường nhất, nhằm tăng tốc độ kiếm tìm thơng tin. Chúng thường được gọi dưới thuật ngữ “stop words”. Một số từ như “the, is, in…”; mặc dù hâu hết công cụ đều tự động loại bỏ, tuy nhiên, một số vẫn giữ nguyên nếu bạn không để cụm từ trong ngoặc kép (google hoặc alta vista).
Cách 7: Đảo ngược câu hỏi: Các con nhện truy vấn từng phần, sao cho phù
hợp với yêu cầu của bạn. Các trang web thường chứa nhiều câu trả lời hơn là câu hỏi, do vậy, hãy tìm cụm từ trả lời. Tứ khóa nên là các từ được mong đơi trả lời nhất – một thủ thuật đáng giá. Vd: Thay vì gõ “biển đơng có cá gì ?”, hãy thử “cá biển đơng”
Cách 8: Giải pháp với các liên kết khơng cịn hoạt động: Một số liên kết hết
hiệu lực hoặc lỗi server nên khơng chay được, trường hợp đó, hãy thử ở các cấp cao hơn của liên kết.
Ví dụ: http://www.spock.com/jim/life/not_as_we_know_it.html không hoạt
động, hãy thử http://www.spock.com/jim/life/ nếu vẫn lỗi, gõ http://www.spock.com/jim/ hoặc đưa thẳng về tên miền gốc. Ngồi ra, bạn có thể sử dụng bộ nhớ đệm (CACHED) của google để lấy thông tin. Hoặc đơn giản, yêu cầu “The wayback machine”, lấy các bản copies từ websites. Các SE đều lưu tất cả các từ trên trang web của chúng ta nhưng khơng nhất thiết chúng sẽ tìm kiếm tất cả các từ đó khi có truy vấn từ người sử dụng. (Nguồn internet)
Stop words đóng vai trị quan trọng đối với việc tăng tốc tìm kiếm. Những cách trên được dành cho người dùng, họ có quyền lựa chọn những cách nhanh nhất để đến gần kết quả mà mình mong muốn. Bản thân máy tìm kiếm cũng sẽ được lập trình để loại bỏ những sự thừa thãi trong q trình hành ngơn của con người. Ngơn ngữ của truy vấn mang tính cá nhân, là dạng hỏi đáp giống như việc chúng ta hỏi thông tin của người khác có thể chứa những từ đưa đẩy hoặc những từ thừa trong giao tiếp. Nhiệm vụ của máy tìm kiếm là lọc ra những từ đó để lấy từ chính để hệ thống khơng mất cơng tìm những trang website chứa những từ như vậy nữa. Như thế, kết quả tìm kiếm được trả về sẽ nhanh hơn rất nhiều.
Chúng tôi dựa vào google adwords để lấy danh sách truy vấn ~1700 câu truy vấn với nhiều chủ đề khác nhau và mỗi câu truy vấn đều chứa stop words. Xử lý trên cơng cụ tìm kiếm so sánh hai kết quả: khơng có stop words- có stop words với ba tiêu chí: tốc độ tìm kiếm, lượng kết quả, sự đa dạng của kết quả. Kết quả như sau: với ~1594/1700 chiếm 93% kết quả trả về và tốc độ tìm kiếm trước khi bỏ stop
words ít hơn so với việc bỏ stop words, ~106/1700 chiếm 7% kết quả trả về và tốc
độ tìm kiếm trước khi bỏ stop words lớn hơn với việc đã bỏ stop words. Các stop
words được đánh dấu để xét giá trị của nó với câu truy vấn. Thơng thường máy tìm kiếm có các gợi ý và đặc biệt google hiện nay có phần cảnh báo stop words.
Ví dụ:
Keyword Tốc độ Lọc bỏ stop words Kết quả
kệ để sách 9.250.000 kết quả (0,16 giây) kệ * sách 9.790.000 kết quả (0,22 giây) đặt tên ở nhà cho con 15.400.000 kết quả (0,37 giây) đặt tên* nhà *con 107.000.000 kết quả (0,23 giây) luật nhà ở 2009 3.920.000 kết quả (0,21 giây) luật nhà *2009 16.700.000 kết quả (0,22 giây) nghị định 71 về nhà ở 886.000 kết quả (0,25 giây) nghị định 71* nhà ở 413.000 kết quả (0,14 giây) bán nhà ở đà nẵng 4.580.000 kết quả (0,27 giây) bán nhà * đà nẵng 36.900.000 kết quả (0,28 giây) nhà cho thuê ở đà nẵng 18.800.000 kết quả (0,27 giây) nhà *thuê *đà nẵng 17.700.000 kết quả (0,22 giây) nhà ở theo phong thủy 8.150.000 kết quả (0,34 giây) nhà **phong thủy 43.400.000 kết quả (0,30 giây)
tại sao đàn ông ngoại tình 20.800.000 kết quả (0,21 giây) *đàn ơng ngoại tình 28.900.000 kết quả (0,23 giây) tại sao gọi là biển
đen 5.170.000 kết quả (0,26 giây) ***biển đen 33.800.000 kết quả (0,17 giây) sakura va syaoran 110.000 kết quả (0,24 giây) sakura *syaoran 1.150.000 kết quả (0,22 giây) khoa học và công nghệ 8.690.000 kết quả (0,29 giây) khoa học *công nghệ 55.200.000 kết quả (0,27 giây) bộ truyền thông và thông tin 50.800.000 kết quả (0,30 giây) bộ truyền thông* thông tin 92.200.000 kết quả (0,24 giây) hoc nghe o ha noi 7.820.000 kết
quả (0,30 giây)
hoc nghe *ha noi 89.600.000 kết quả (0,28 giây) làm sao để hết mụn 1.580.000 kết
quả (0,18 giây)
**hết mụn 6.040.000 kết
quả (0,34 giây) làm sao để sinh con
trai
7.360.000 kết quả (0,20 giây)
**sinh con trai 28.100.000 kết quả (0,19 giây) làm sao để biết có thai 4.090.000 kết quả (0,20 giây) **biết * thai 4.400.000 kết quả (0,30 giây) số đếm trong tiếng anh 1.770.000 kết quả (0,14 giây) số đếm *tiếng anh 1.810.000 kết quả (0,12 giây) đánh số trang trong word 2003 189.000 kết quả (0,24 giây) đánh số trang *word 2003 192.000 kết quả (0,22 giây) một số cảnh nóng trong phim 10.500.000 kết quả (0,21 giây) *cảnh nóng *phim 12.900.000 kết quả (0,27 giây) cách chèn số trang trong word 304.000 kết quả (0,27 giây) *chèn số trang* word 463.000 kết quả (0,25 giây) khi nào cho bé ăn
cháo
3.010.000 kết quả (0,24 giây)
**bé ăn cháo 3.880.000 kết quả (0,24 giây khi nào nên đi khám
thai 510.000 kết quả (0,22 giây) **đi khám thai 709.000 kết quả (0,30 giây) pr la gi 109.000.000 kết quả (0,18 giây) Pr** 571.000.000 kết quả (0,26 giây) seo la gi 13.500.000 kết quả (0,17 giây) Seo** 195.000.000 kết quả (0,23 giây) anh dong dep lung
linh
1.050.000 kết quả (0,36 giây)
anh dong dep* 647.000 kết quả (0,20 giây) hinh nen dong lung
linh
235.000 kết quả (0,30 giây)
hinh nen dong* 7.090.000 kết quả (0,16 giây)
Bảng 3.1: So sánh kết quả trước khi bỏ và sau khi bỏ stop words trên cơng cụ tìm kiếm google
Các truy vấn được đưa vào cơng cụ tìm kiếm (google) đưa là kết quả trước và sau khi bỏ stop words, trong đó nếu bỏ stop words có thể gây mất nghĩa truy vấn nhưng được đánh dấu để máy xem xét khả năng ra kết quả có nó. Ví dụ với tiếng Anh: the piano player. Chúng ta sẽ đơn giản hóa mơ hình tìm kiếm như sau - các SE sẽ tìm 3 lần - Đầu tiên chúng sẽ tìm xem có từ "the" khơng, sau đó chúng tìm tiếp từ "piano" và cuối cùng là "player". Nhưng rất có thể, các SE chỉ tìm 2 từ cuối là đủ để xác định sự liên quan có trong nội dung một trang web và điều này chắc chắn sẽ làm gia tăng tốc độ tìm kiếm.
Ví dụ:
Truy vấn 1: làm sao để dưỡng da đẹp vào mùa đông
Cách hiểu: người dùng muốn tìm thông tin về cách dưỡng da làm sao đẹp vào mùa đơng.
Nội dung thơng tin chính bao gồm: dưỡng, da đẹp, mùa đông Những từ không cần thiết: làm sao, để, vào
Kiểm tra trên google ta có như sau:
Làm sao: 40.800.000 kết quả Để: 616.000.000 kết quả Vào: 537.000.000 kết quả
Kết quả khi gõ thơng tin chính: Khoảng 8.060.000 kết quả (0, 34 giây), kết
quả trả về (xét trên google page 1): 10/10 link kết quả đều đưa ra thông tin trọn vẹn về dưỡng da mùa đông.
Kết quả khi gõ kèm theo những từ không cần thiết: Khoảng 6.790.000 kết
quả (0,32 giây), kết quả trả về (xét trên google page 1): 8/10 link có thơng tin trọn vẹn về dưỡng da đẹp mùa đơng, 1 link có liên quan đến dưỡng da: http://kemyensao.com/duong-da-cho-nguoi-dung-nhieu-may-tinh/, 1 link có kết quả ngược lại với mục đích tìm kiếm: http://kemyensao.com/13-loi-lam-dep-mua-dong/. Và, sau thời gian chênh lệch khơng quá lớn: 0,02s khi gõ thơng tin chính kết quả đem lại là 1.270.000 kết quả.
Cách hiểu: người dùng muốn tìm thơng tin về kiểu tóc hợp với mặt vng.
Nội dung thơng tin chính bao gồm: kiểu tóc, hợp, (khn) mặt vng Những từ khơng cần thiết: nào, với
Kiểm tra trên google ta có như sau: