Googlebot là một robot của Google, tìm và lấy các trang trên các web, đưa chúng vào chỉ mục của Google (indexer). Có thể tưởng tượng nó giống như một con nhện nhỏ đang tất bật trên khắp các trang mạng. Trên thực tế, Googlebot không đi tới tất cả các trang, nó gửi yêu cầu tới các máy chủ để lấy các page, tải tồn bộ trang đó và giao nó cho bộ phận lưu chỉ mục của Google.
Google gửi yêu cầu tới hàng ngàn máy chủ khác nhau cùng một lúc. Để tránh việc tràn ngập các máy chủ cá nhân hoặc lấn át các yêu cầu của người dùng, Googlebot cố ý làm cho tốc độ gửi yêu cầu tới các trang chậm hơn rất nhiều so với khả năng của nó.
Google tìm các trang web theo hai cách: thơng qua địa chỉ URL và qua việc tìm kiếm các link trên web.
Google Indexer
Sau khi Googlebot tải về toàn bộ các trang được tìm thấy, những trang này được lưu trữ trong cơ sở dữ liệu của chỉ mục Google (hay nói cách khác là được Google Index). Cơ sở dữ liệu được sắp xếp theo thứ tự bảng chữ cái các cụm từ tìm kiếm, mỗi mục sẽ lưu một danh sách các tài liệu có chứa từ tìm kiếm này và vị trí nó xuất hiện trong văn bản. Nhờ đó, cấu trúc của dữ liệu cho phép truy cập nhanh chóng các tài liệu có chứa các truy vấn của người dùng.
Để cải thiện hiệu suất tìm kiếm, Google sẽ bỏ qua (không index) những từ gọi là “stop words” (the, is, on, or, of, how, why, as well as cũng như những chữ số 1 chữ số và một số chữ cái đơn). Google cũng bỏ qua các dấu chấm câu và các khoảng để dấu cách quá lớn, cũng như chuyển tất cả các chữ cái về dạng viết thường.
Bộ xử lý truy vấn của Google
Bộ xử lý truy vấn bao gồm giao diện người dùng (box tìm kiếm trên trang chủ Google), “bộ máy” đánh giá mức độ liên quan giữa truy vấn và các dữ liệu, văn bản, và hiển thị kết quả tìm kiếm.
PageRank – hệ thống xếp hạng các trang web của Google góp phần rất quan trọng việc đánh giá của Google. Một trang có PageRank cao hơn được coi là quan trọng hơn và có nhiều khả năng được hiển thị ở vị trí cao hơn các trang PageRank thấp. Google dựa trên rất nhiều yếu tố để đưa ra chỉ số PageRank và quyết định những tài liệu nào liên quan đến truy vấn, bao gồm cả sự phổ biến của trang, vị trí và số lượng các từ tìm kiếm trong trang, và mức độ liên quan đến các từ tìm kiếm trên trang.
(Nguồn: http://novaads.com/toi-uu-hoa-cong-cu-tim-kiem/646-google-tim- kiem-nhu-the-nao.html)
2.2.3. Xử lý ngơn ngữ tự nhiên trong cơng cụ tìm kiếm
Theo wiki, xử lý ngôn ngữ tự nhiên (natural language processing - NLP)
được hiểu là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngơn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngơn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ-cơng cụ hồn hảo nhất của tư duy và giao tiếp.
Phân tích hình thái: Trong bước này từng từ sẽ được phân tích và các ký
tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ. Cùng với các ngôn ngữ như tiếng Trung,tiếng Hàn,tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không hề đơn giản.
Phân tích cú pháp: Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện
sự liên kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm. Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ
phân tích cú pháp.
Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào
những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau. Phân tích thực nghĩa: Cấu trúc thể hiện điều được phát ngôn sẽ được
Tuy nhiên, ranh giới giữa 5 bước xử lý này cũng rất mong manh. Chúng có thể được tiến hành từng bước một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ cảnh cụ thể. (Nguồn: http://vi.wikipedia.org) Trong ứng dụng xử lý ngôn ngữ tự nhiên trong cơng cụ tìm kiếm, một số bước xây dựng cơng cụ cần đến sự can thiệp của các nhà ngôn ngữ:
Gán nhãn từ loại
Công việc gán nhãn từ loại cho một văn bản là xây dựng từ loại của mỗi từ trong phạm vi văn bản đó. Sau đó, ta phân loại các từ thành các lớp từ loại dựa trên thực tiễn ngơn ngữ. Việc địi hỏi việc xác định một cách chính xác từ loại cho các từ trong văn bản gặp khó khăn bởi thực tế cịn nhiều tranh cãi về vấn đề từ loại trong tiếng Việt. Việc gán nhãn từ loại sẽ giúp truy vấn tránh những nhập nhằng không cần thiết ảnh hưởng đến thông tin trả về.
Hai hướng tiếp cận gán nhãn từ loại:
- Gán nhãn từ loại dựa vào thông tin về từ: là việc gán nhãn sử dụng các đặc trưng ngữ cảnh xung quanh từ đang xét
- Gán nhãn từ loại dựa vào thơng tin hình vị: là việc dựa trên đặc điểm của tiếng Việt là các “từ” được cấu thành từ các hình vị, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái. [20, tr. 56]
Xây dựng từ điển
Xây dựng từ điển ưu tiên xây dựng từ điển đồng nghĩa, mã hóa thơng tin tri thức ứng dụng, tạo một bản thể mà đặc trưng là các thuật ngữ đã được tổ chức. Từ vựng được mã hóa thơng tin cú pháp ngữ nghĩa. Các từ điển đồng nghĩa phức tạp được sử dụng như một danh mục cơ sở cho hệ thống tìm kiếm tự động. Khơng có một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niêm mà chúng ta mổ tả nên chúng ta sẽ chọn cụm từ có quan hệ gần nhất của hệ thông xuyên ngữ hiện tại. Từ điển bằng vốn từ được quản lý và mỗi khái niệm được dán nhãn bằng 1 cụm từ có tính mơ tả để người dùng có thể chỉ ra những khái niệm thích hợp nhất cho mỗi truy vấn của họ, đưa ra những gợi ý để người tìm kiếm có thể điều chỉnh truy vấn gần với mục đích nhất của họ.
Khi các mối quan hệ về khái niệm được mã hóa trong từ điển được sử dụng một cách tự động thì sẽ trở thành cơng cụ tìm kiếm bằng khái niệm. Độ chính xác của cơng cụ tìm kiếm này có thể tăng dần bằng cách thêm vào những thông tin cú pháp và ngữ nghĩa trong từ điển để làm giảm nhẹ ảnh hưởng của từ đa nghĩa. Các hệ thống tìm kiếm dựa vào sự sắp xếp thường chấp nhận các câu truy vấn bằng ngôn ngữ tự nhiên và cho phép sự lựa chọn không rằng buộc các cụm từ. Với tìm kiếm bằng khái niệm, hệ thống sẽ cung cấp các biến thể sử dụng của các cụm từ bằng cách gia tăng các cụm từ có liên quan trong câu truy vấn và sau đó sửa đổi truy vấn. Ý nghĩa của việc sửa đổi truy vấn là nâng cao độ bao phủ tìm kiếm tận dụng thơng tin ngữ nghĩa được mã hóa trong từ điển, trong các cụm từ bao gồm: từ, các ngữ, từ ghép…bởi vì các từ ghép nối các từ khóa với nhau dựa trên nền tàng là mối quan hệ ngữ nghĩa thay vì hình thức bề ngồi của chúng do đó việc đưa ra các công thức cho từ ghép sẽ sẽ tốt hơn việc rút trích các ngữ đơn giản.
Xây dựng từ điển đồng nghĩa cho cơng cụ tìm kiếm giải quyết vấn đề xác định truy vấn, lọc thơng tin truy vấn để máy tìm kiếm đưa ra những gợi ý gần với mục đích tìm kiếm và ý nghĩa của truy vấn. Truy vấn ở đây không đơn thuần là những truy vấn rõ ràng mạch lạc, có thể đi thẳng vào vấn đề mà là những truy vấn ngơn ngữ tự nhiên, mang tính chất cá nhân bao gồm những nhập nhằng.
Từ điển cho máy tìm kiếm đọc được phải đảm bảo những yếu tố:
Không cần chứa những thông tin về ngữ âm, từ vựng, từ nguyên, giải thích, ví dụ.
Thơng tin cho người sử dụng: con người có thể suy ra bằng tri thức thực tế và vốn sống.
Tổ chức nhất quán, chặt chẽ, chính xác đầy đủ về cấu trúc và lượng thông tin để máy tính có thể xủ lý một cách máy móc.
Các mục từ của từ điển được xây dựng bằng các tiêu chí sau:
Thơng tin lưu trữ trong mỗi mục từ phải hồn tồn chính xác, nhất qn về chính tả, bộ mã ký tự và trình bày, khơng nhập nhằng như từ điển thông thường.
Lập chỉ mục
Trong hệ thống tìm kiếm và xử lý ngơn ngữ tự nhiên, tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bả để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản được gọi là tiếng trình lập chỉ mục- indexing. Chỉ mục có thể là từ hoặc là một cấu trúc phức tạp hơn như cụm từ, khái niệm. Với đặc điểm cố hữu của tiếng Việt, việc xác định chỉ mục từ phức tạp hơn nhiều so với ngơn ngữ châu Âu vì phải xác định ranh giới của các từ. Khoảng trắng giữa các từ không áp dụng triệt để đối với tiếng Việt, hơn nữa từ pháp tiếng Việt còn nhiều vấn đề tranh luận giữa các nhà ngơn ngữ học vì vậy sẽ có rất nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt.
Q trình lập chỉ mục của hệ thống tìm kiếm thơng tin có ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên phải bao gồm các chức năng như sau:
Xác định từ
Xác định từ loại cho từ
Chuẩn hóa các biến thể về hình thái học của từ
Xác định các từ ghép
Chuẩn hóa các biến thể về từ vựng học và ngữ nghĩa học
Phân tích cú pháp
Chuẩn hóa các biến thể về cú pháp học
Đánh trọng số cho các biểu thức chỉ mục
Trong 8 bước này, cần lưu ý đến những khái niệm liên quan đến biến thể ngôn ngữ học:
Biến thể về hình thái học là các dạng khác nhau về mặt cấu trúc (nơm na là hình dáng) của một từ như vẫn hay thấy trong các ngôn ngữ châu Âu. Hệ thống sẽ cho kết quả khơng chính xác nếu đối xử với các biến thể này như các từ độc lập khác nhau.
Biến thể về từ vựng học là các từ khác nhau mang cùng một nghĩa. Hệ thống sẽ trả về các tài liệu bao gồm các biến thể của từ cần tìm.
Biến thể cú pháp học là các kết hợp khác nhau về mặt cú pháp của cùng một nhóm từ sẽ mang các ý nghĩa khác nhau. Do đó nếu hệ thống khơng xử lý cấu trúc ngữ pháp của nhóm từ sẽ dẫn đến việc giảm chính xác.
Bước xác định từ thực hiện việc xác định các câu trong tài liệu và xác định các từ trong câu. Đối với các ngôn ngữ châu Âu bước này có thể được cài đặt dựa vào các luật về viết hoa, khoảng trắng và các ký tự phân cách khác. Đối với tiếng Việt đây là một bước khá phức tạp bởi vì các từ tiếng Việt khơng thể xác định chỉ dựa theo cách này.
Sau khi đã xác định được các từ, hệ thống tiến hành gán từ loại (category) cho từng từ phụ thuộc vào ngữ cảnh của từ. Đây cũng là một công đoạn rất phức tạp do một từ có thể mang nhiều từ loại khác nhau tùy thuộc vào ngữ cảnh xuất hiện của từ. Việc xác định từ loại cho từ nhằm phục vụ cho giai đoạn tiếp theo của tiến trình đó là xác định từ ghép, các cụm danh từ có trong câu.
Bước tiếp theo của hệ thống là xác định các từ ghép (compound noun) ví dụ như từ ‘hot dog’để xử lý chúng như một đơn vị duy nhất thay vì xử lý riêng rẽ các từ hot và dog trong trường hợp này. Việc xác định các từ ghép thường dùng phương pháp thống kê tần suất đồng xuất hiện của các từ trong tài liệu hoặc dùng các mẫu (patern) tổ hợp các từ loại, ví dụ như danh từ - tính từ, danh từ - danh từ …
Cuối cùng là q trình chuẩn hố các biến thể và từ vựng học và ngữ nghĩa để xây dựng phân nhóm các chỉ mục theo các nhóm ngữ nghĩa (semantical clustering) Phân tích cú pháp là giai đoạn nhằm xác định các liên hệ về mặt cú pháp giữa các từ trong cụm từ. Khi chúng ta đã xác định được các cụm từ và các liên hệ cú pháp giữa các từ trong cụm từ, chúng ta tiến hành chuẩn hóa các cụm từ về một chuẩn chung và cuối cùng tiến hành đánh trọng số cho các cụm từ chỉ mục. [68, tr. 4]
Như vậy, lập chỉ mục cũng cần phải lưu ý những vấn đề như sau:
Xác định các từ riêng biệt trong tài liệu.
Loại bỏ các từ có tần số cao.
Loại bỏ các từ có trọng số thấp.
Lập chỉ mục: phân tích, xác định từ và cụm từ nhằm tìm ra đại diện cho nội dung tài liệu.
2.3. Tiểu kết
Q trình xây dựng cơng cụ tìm kiếm gồm rất nhiều bước khác nhau. Xử lý ngôn ngữ tự nhiên là một trong những thao tác quan trọng nhất trong chuỗi q trình đó. Đối với nhà ngơn ngữ học, chúng ta can thiệp xử lý bằng tay đối với những trường hợp nhập nhằng và tranh cãi. Sau đó, chúng ta đưa ra một quan niệm và mơ tả nó một cách rõ ràng mạch lạc để người xử lý nhập vào máy. Tuy nhiên, đối với tiếng Việt, việc xử lý ngơn ngữ tự nhiên cịn quá nhiều điều cần phải làm và thống nhất, dù là lớn hay nhỏ đều ảnh hưởng đến cơng cụ tìm kiếm. Stop words là một vấn đề nhỏ nằm trong bước lập chỉ mục của từ. Tuy là bước nhỏ, nhưng đây lại là điểm nhập nhằng khá quan trọng ảnh hưởng trực tiếp đến kết quả tìm kiếm và việc chạy hệ thống.
Trong luận văn này, chúng tôi cũng xin phép tổng hợp và đưa ra những mức đánh giá thế nào là một hệ thống tìm kiếm tốt để. Đối với cơng cụ tìm kiếm, người lập hệ thống và người tìm kiếm có chung mục đích là kết quả tìm kiếm. Kết quả này sẽ là thước đo xem hệ thống tìm kiếm có tốt hay khơng. Một kết quả tìm kiếm tốt cần phải có7:
- Đối với tìm kiếm liên quan đến web tổ chức doanh nghiệp, cơ quan chính phủ…phải trả về đúng vital (trang chủ, hoặc trang con) của tổ chức và cơ quan cần tìm.
- Đối với tìm kiếm thơng thường: kết quả trả về là những web chứa thông tin cần tìm (đủ) hoặc kèm theo những thơng tin phụ hữu ích (thêm).
- Thường một hệ thống tìm kiếm có trên 10 kết quả trả về ở trang đầu tiên thì phải đảm bảo trên 60% phải trả về thông tin đủ (thêm, vital)
- Kết quả đủ (thêm, vital) phải được đưa lên những link đầu của trang đầu tiên và giảm độ thông tin dần dần cho các link về sau (hoặc những trang về sau)
- Loại bỏ website mang thông tin đồi trụy, phản động gây rối.
Hệ thống tìm kiếm cịn được đánh giá bởi tốc độ kết quả trả về nhanh hay chậm, nhiều hay ít.
Ví dụ: trên Google, Bing
7 Hiện nay, cơng cụ tìm kiếm của Coccoc cũng dựa trên các tiêu chí đó tuy nhiên tùy theo từng trường hợp và mục đích sử dụng mà phân loại khác nhau trong việc đánh giá query.