Hoạt động của Yandex

Một phần của tài liệu Chuyên đề “công nghệ tri thức” (Trang 45)

III. Yandex

2. Hoạt động của Yandex

Để thực hiện tìm kiếm, Yandex sử dụng một chỉ mục tìm kiếm gồm các từ và vị trí của nó mà bộ máy tìm kiếm đã biết. Vị trí của từ là sự kết hợp vị trí của từ trên trang web và địa chỉ của trang web đó trên Internet. Một chỉ mục tìm kiếm giống như một bảng thuật ngữ hoặc một danh bạ điện thoại. Nhưng không như một bảng thuật ngữ chỉ chứa các từ đã chọn, chỉ mục tìm kiếm đăng ký tất cả các từ với bộ máy tìm kiếm đã duyệt qua. Và khơng như một danh bạ chỉ liệt kê tên và địa chỉ, mỗi chỉ mục tìm kiếm có địa chỉ đăng ký nhiều hơn một cho mỗi từ.

3. Q trình thu thập thơng tin và lập chỉ mục web

Trước khi thực hiện tìm kiếm, các bộ máy tìm kiếm cần phải chuẩn bị các thơng tin mà nó tìm thấy trên Internet để tìm kiếm. Q trình này được gọi là lập chỉ mục. Trước khi lập chỉ mục, các bộ máy tìm kiếm phải thu thập thơng tin web (web crawler). Quá trình này thực hiện duyệt web thường xuyên, tải về các trang mới và xử lý chúng. Sau đó, nó sẽ tạo ra một “bản sao” của Internet, được lưu trữ trên các máy chủ tìm kiếm và được cập nhật sau mỗi lần thu thập thông tin.

Yandex có hai trình thu thập thơng tin. Trình thu thập thơng tin chính lập chỉ mục tất cả các trang web mà nó duyệt qua. Trình thu thập thơng tin cịn lại, được biết như là Orange, thực hiện lập nhanh các chỉ mục các tài liệu gần nhất, thậm chí là chỉ vài phút, vài giây trước khi thu thập. Cả hai trình thu thập đều có “danh sách chờ” của các trang web cần lập chỉ mục. Các danh sách này liên tục thêm các liên kết mới mà các trình thu thập thơng tin tìm thấy trên các trang web. Liên kết mới cũng có thể xuất hiện trong danh sách chờ sau khi chủ sở hữu trang web thêm các trang của họ vào chỉ mục bằng dịch vụ Yandex.Webmaster.

Trước khi quá trình thu thập thơng tin có thể bắt đầu, một chương trình đặc biệt là lịch trình (scheduler), tạo ra một lịch trình, thứ tự các trang web sẽ được truy cập. Lịch trình dựa trên một số yếu tố cần thiết cho việc truy xuất thơng tin, ví dụ như các liên kết phổ biến hoặc tần số cập nhật trang. Sau khi lịch trình đã được thực hiện, thành phần khác của các cơng cụ tìm kiếm là Spider (mạng nhện) sẽ tiếp tục. Spider thường xuyên truy cập các trang theo lịch trình.

Nếu một trang web có thể truy cập để thu thập và đang hoạt động, chương trình tải trang web như dự kiến. Nó xác định các định dạng (html, pdf, swf, ...), mã số và ngơn ngữ của các tài liệu tải về, sau đó gửi thơng tin này đến các máy chủ để lưu trữ.

Trên máy chủ lưu trữ, một chương trình khác sẽ xóa tài liệu web html được đánh dấu, chỉ để lại văn bản. Sau đó, nó sẽ chiết xuất thơng tin về vị trí của mỗi từ và thêm tất cả các từ trong tài liệu web này vào chỉ mục. Tài liệu gốc cũng được lưu giữ trên máy chủ cho đến khi thu thập dữ liệu tiếp theo. Điều này cho phép Yandex cung cấp cho người dùng có cơ hội xem các tài liệu web nếu trang web tạm thời khơng hoạt động. Nếu một trang web khơng cịn hoạt động, hay tài liệu web bị xóa hoặc cập nhật, Yandex sẽ loại bỏ nó khỏi các máy chủ, hoặc thay thế nó bằng một phiên bản mới hơn.

Hình 47.19. Hoạt động của Yandex Spider

Chỉ mục tìm kiếm, cùng với bản sao của tất cả các tài liệu sẽ được lập chỉ mục gồm mã số, kiểu và ngôn ngữ tạo thành cơ sở dữ liệu tìm kiếm. Để theo kịp với bản chất luôn thay đổi nội dung của các trang thông tin trên Internet và chắc chắn rằng các cơng cụ tìm kiếm có thể tìm thấy thơng tin mới nhất, phù hợp nhất để đáp ứng các truy vấn tìm kiếm của người dùng, các cơ sở dữ liệu tìm kiếm ln được cập nhật thường xun. Trước khi các cơng cụ tìm kiếm có thể tìm và trả lại kết quả cho người dùng, mỗi lần cập nhật cơ sở dữ liệu mới, đầu tiên cần đi đến các máy chủ “basic search - tìm kiếm cơ bản”. Các máy chủ tìm kiếm cơ bản chỉ chứa một phần thiết yếu của cơ sở dữ liệu tìm kiếm - miễn phí từ thư rác, các trang web nhân bản hoặc các tài liệu không liên quan khác. Đây là một phần của cơ sở dữ liệu tìm kiếm đáp ứng các truy vấn người dùng một cách trực tiếp.

Cập nhật cơ sở dữ liệu tìm kiếm được gửi từ các máy chủ lưu trữ của thu thập thơng tin chính đến các máy chủ tìm kiếm cơ bản trong “packages - gói” mỗi lần một vài ngày. Đây là một quá trình cần nhiều tài nguyên. Để giảm tải trên các máy chủ, dữ liệu được chuyển vào ban đêm - khi lưu lượng tìm kiếm trên Yandex ở mức thấp nhất. Mỗi phần của dữ liệu mới được so sánh bằng cách sử dụng một số các thông số so với phiên bản mới nhất có sẵn từ thu thập dữ liệu trước đó, để đảm bảo rằng bản cập nhật khơng làm suy giảm chất lượng kết quả tìm kiếm. Sau khi kiểm tra chất lượng kết quả thành công, phiên bản cũ được thay thế bằng các cập nhật mới nhất.

Trình thu thập thơng tin Orange được thiết kế để tìm kiếm theo thời gian thực. Cả hai lịch trình và Spider được điều chỉnh để việc tìm kiếm các tài liệu web mới nhất và chọn một số lượng lớn các trang có khả năng được quan tâm. Các tài liệu này được xử lý ngay và gửi thẳng đến các máy chủ tìm kiếm cơ bản. Khi số lượng các tài liệu này tương đối thấp, bản cập nhật có thể thực hiện theo thời gian thực, ngay cả suốt ngày mà khơng có nguy cơ q tải các máy chủ.

4. Kiến trúc tìm kiếm

Cơng cụ tìm kiếm Yandex thực hiện hàng chục triệu truy vấn mỗi ngày, với độ chính xác cao và hồi đáp ngay tức thì dựa trên tập chỉ mục. Tuy nhiên để hồi đáp ngay lập tức câu truy vấn của người dùng luôn là một vấn đề lớn. Để giải

quyết vấn đề này, Yandex thực hiện tìm kiếm đồng thời trên các chỉ mục được phân bố trong hàng ngàn máy chủ.

Đầu tiên, mỗi truy vấn của người dùng sẽ được đi tìm kiếm trong “siêu dữ liệu”. Hệ thống tìm kiếm siêu dữ liệu sẽ phân tích từng thuật ngữ tìm kiếm theo kiểu, khu vực, ngữ pháp theo thời gian thực. Sau đó, nó sẽ tìm trong vùng bộ nhớ đệm xem thử có kết quả truy vấn nào giống như truy vấn hiện tại khơng, thay vì phải tìm kiếm trong “siêu dữ liệu”. Hê thống tìm kiếm siêu dữ liệu sẽ lưu kết quả đối với một số tìm kiếm phổ biến trong bộ nhớ đệm của nó, và giữ các kết quả này một thời gian để tham khảo trong tương lai.

Nếu bộ nhớ đệm khơng có sẵn kết quả, câu truy vấn sẽ được gởi đến các máy chủ tìm kiếm cơ bản, nơi Yandex lưu dữ liệu tìm kiếm – một loại bản sao Internet. Dữ liệu tìm kiếm được chia cho tất cả máy chủ để tạo điều kiện tìm kiếm nhanh chóng, cùng lúc thay vì tìm kiếm trên tồn bộ cơ sở dữ liệu.

Mỗi máy chủ tìm kiếm cơ bản hồi đáp một danh sách các tài liệu web có chứa từ các phù hợp với truy vấn của người dùng. Sau đó, tìm kiếm siêu dữ liệu sử dụng MatrixNet để xếp hạng, và cung cấp cho người dùng kết quả tìm kiếm.

Quá trình trên, cho phép Yandex cung cấp kết quả trong một phần nhỏ của một giây đối với các truy vấn tìm kiếm của người dùng.

5. Thuật tốn MatrixNet

Năm 2009, Yandex sử dụng một phương thức máy học mới chống lại dữ liệu quá rộng, cho phép Yandex đưa vào tài khoản một lượng lớn các yếu tố phù hợp với kết quả tìm kiếm. Nhưng giờ, các hệ thống tìm kiếm khơng cần nhiều mẫu của kết quả tìm kiếm để tìm hiểu làm thế nào là “tốt” từ “khơng tốt lắm”. Để đảm bảo an toàn cho hệ thống khơng mắc lỗi, Yandex sẽ tiến hành tìm kiếm độc lập các mẫu không tồn tại.

MatrixNet cho phép tạo ra một công thức xếp hạng dài và phức tạp từ việc xem xét nhiều yếu tố khác nhau cũng như sự kết hợp của chúng. Các phương pháp máy học luân phiên nhau tạo ra các công thức đơn giản hơn bằng cách sử dụng một số lượng nhỏ các yếu tố hoặc yêu cầu một mẫu học tập lớn hơn. MatrixNet xây dựng một công thức dựa trên hàng chục ngàn yếu tố, làm tăng đáng kể các kết quả tìm kiếm liên quan.

Một tính năng quan trọng khác của MatrixNet là cho phép tùy chỉnh cơng thức xếp hạng đối với một lớp truy vấn tìm kiếm cụ thể mà không làm suy yếu chất lượng xếp hạng của các truy vấn khác, cũng như không gây ra các thay đổi lớn của toàn hệ thống.

Đối với mỗi truy vấn, địi hỏi phải có một số lượng các máy chủ cũng như thời gian để xem xét yếu tố của hàng triệu trang, mức độ liên quan và xếp hạng chúng lên đầu kết quả tìm kiếm. Điều này có thể gây ra thời gian chờ lâu của người tìm kiếm. MatrixNet có thể giải quyết vấn đề này, ví nó cho phép kiểm tra các trang web với số lượng lớn các yếu tố xếp hạng mà không làm tăng sức mạnh xử lý.

Với mỗi hồi đáp truy vấn, có hơn một ngàn máy chủ thực hiện tìm kiếm cùng lúc. Mỗi máy chủ tìm kiếm trong danh sách chỉ mục riêng của mình để tạo ra một danh sách các kết quả tốt nhất, phù hợp nhất với truy vấn này.

Tiếp theo MatrixNet sử dụng một công thức dài, phức tạp xem xét các yếu tố xếp hạng và sự kết hợp của chúng để tạo ra một danh sách kết quả hoàn chỉnh dựa trên các danh sách kết quả tìm kiếm của mỗi máy chủ. Vì vậy mà các trang web phù hợp nhất sẽ được xếp trên cùng của kết quả tìm kiếm.

6. Các tính năng của Yandex6.1. Giao diện 6.1. Giao diện

Giao diện tìm kiếm của Yandex khá đơn giản, tạo cảm giác thuận tiện cho người dùng. Trên giao diện gồm những dịch vụ tìm kiếm phổ biến của Yandex như web, hình ảnh và phim ảnh. Thành phần quan trọng nhất là khu vực nhập từ khóa tìm kiếm và thực hiện truy vấn.

6.2. Tìm kiếm di động

Yandex Opera Mini for iOS là trình duyệt web di động miễn phí từ Opera Software kết hợp với nén dữ liệu và cơng nghệ tìm kiếm Yandex, với các tính năng sau:

- Tìm kiếm trên Internet bằng cơng cụ tìm kiếm Yandex

- Tiết kiệm chi phí truyền dữ liệu nhờ cơng nghệ nén dữ liệu Opera - Truy cập trang yêu thích qua bookmark

- Xem các clip với sự hỗ trợ Adobe Flash

- Truy cập dịch vụ Yandex phổ biến như Search, Weather, News, Market, Maps Mail, và mạng xã hội Odnoklassniki, Vkontakte.

6.3. Tìm kiếm xã hội

Ngày 21/01/2012, Yandex sẽ kết hợp với cùng với mạng xã hội Twitter để tăng cường khả năng tìm kiếm theo thời gian thực. Với thỏa thuận này, Yandex sẽ có quyền truy cập nội dung trên Twitter, trừ những Twitter nào được đánh dấu là riêng tư.

Những nội dung tìm kiếm của Twitter sẽ xuất hiện cả ở phần tìm kiếm blog cũng như trên trang http://twitter.yandex.ru.

7. Các dịch vụ tìm kiếm của Yandex7.1. Tìm kiếm web 7.1. Tìm kiếm web

Yandex là một cơng cụ tìm kiếm mạnh mẽ, đơn giản trên Internet. Người dùng chỉ cần nhập từ khóa cần tìm vào ơ tìm kiếm và chọn lệnh “Search”, các cơng việc cịn lại Yandex sẽ làm.

Khi tìm kiếm với Yandex, tốt nhất là ta dùng vài từ có nghĩa để Yandex hiểu. Ví dụ, thay vì ta tìm kiếm thiết kế chung chung, ta có thể tìm với thiết kế nội thất, thiết kế web, … sẽ làm Yandex tìm chính xác cao.

Nếu muốn tìm kiếm chính xác, người dùng có thể đặt cụm từ tìm kiếm trong cặp dấu ngoặc kép (“”). Ví dụ, tìm kiếm “for never was a story of more woe”, Yandex sẽ tìm tất cả các trang có xuất hiện cụm từ này. Bên cạnh, Yandex khơng phân biệt chữ hoa, chữ thường.

7.2. Tìm kiếm hình ảnh

Nếu người dùng muốn tìm kiếm một hình ảnh hay bức tranh, thì bộ máy tìm kiếm hình ảnh của Yandex sẽ giúp người dùng tìm các tranh ảnh liên quan và phù hợp nhất. Nhiệm vụ đơn giản của người dùng là nhập từ khóa tìm kiếm.

7.3. Tìm kiếm phim ảnh

Khi tìm kiếm phim ảnh, Yandex sẽ liệt kê các kết quả tìm kiếm của phim ảnh phía trong kết quả tìm kiếm. Đặc biệt, nếu các từ “video”, “watch” hay “clip” kèm theo từ khóa tìm kiếm thì Yandex sẽ cho kết quả tìm kiếm chính xác hơn.

7.4. Các dịch vụ tìm kiếm khác của Yandex

Bên cạnh các dịch vụ tìm kiếm phổ biến, Yandex cịn cung cấp các dịch vụ tìm kiếm khác nhằm đáp ứng tối đa nhu cầu người dùng, đặc biệt là ở Nga, Ukraine và một số nước nói tiếng Nga, như:

- Yandex.News: Dịch vụ tin tức.

- Yandex.Market: Dịch vụ hỗ trợ mua sắm.

- Yandex.Maps: Dịch vụ tìm kiếm địa điểm, bản đồ. - Yandex.Direct: Mạng quảng cáo trực tuyến.

Trang chủ Yandex.ru cịn cung cấp hỗ trợ người dùng tìm kiếm tin tức, thời tiết, giao thơng, lịch chiếu phim, truyền hình, … Người dùng dễ dàng tùy biến trang chủ để theo dõi các thơng tin phù hợp với mục đích của mỗi người

8. Tùy biến trong tìm kiếm

Yandex cung cấp một tập hợp mạnh mẽ các thao tác tìm kiếm, cho phép người dùng tìm kiếm các thơng tin cụ thể. Và khi đã làm quen với các thao tác này, người dùng có thể nắm bắt được các tác vụ để thực hiện tìm kiếm chính xác hơn. Một số thao tác thường dùng như sau:

Example Description

“drink me” Tìm kiếm chính xác.

"this watch is exactly * days slow" Dấu “*” thay thế từ bất kỳ. hedgehog & flamingo Các từ xuất hiện trong cùng câu. caterpillar && cheshire Các từ xuất trên cùng trang web. croquet +flamingo Tìm các trang web với từ cụ thể. Cheshire cat | hatter | march hare Tìm bất kỳ từ nào trong câu truy vấn.

Oh my ears and whiskers << rabbit Các từ sau dấu “<<” không bị ảnh hưởng bởi kết quả xếp hạng trang web.

tarts /2 stole Khoảng cách giữa hai từ.

drink me && /3 door Khoảng cách trong vòng ba câu bất kỳ hướng nào.

Twinkle twinkle little ~~star Loại trừ kết quả sau “~~”.

off with /+2 head Khoảng cách giữa hai từ theo cùng thứ tự. teacup ~ tart Tìm câu gồm “teacup” nhưng khơng “tart”. grin /(-1 +2) cat Khoảng cách của một từ theo thứ tự ngược

lại và ba từ về phía trước.

!Curiouser !and !curiouser Từ xuất hiện với hình thức chính xác. queen && (+behead | !head) Tìm kiếm các từ phức tạp trong dấu “( )”. site:http://en.wikiquote.org Tìm chính xác theo website.

CHƯƠNG III. ĐÁNH GIÁ KHÁI QUÁT CÁC BỘ MÁY TÌM KIẾMI. Phân tích và so sánhI. Phân tích và so sánh I. Phân tích và so sánh

1. Giao diện

Khi quan sát giao diện của trang web tìm kiếm Bing, Google và Yandex thì ta thấy Google, Yandex hướng tới sự đơn giản, dễ gây cho người dùng tập trung vào khu vực tìm kiếm nhiều hơn. Ngược lại, người dùng sẽ chú ý giao diện nền của Bing hơn là khu vực tìm kiếm. Đối với các dịch vụ được tích hợp sẵn trên giao diện tìm kiếm, Google có nhiều dịch vụ nhất, tiếp theo là Bing, và sau cùng là Yandex.

Giao diện của Bing tương đối phù hợp với những người có tính nghệ thuật, thích màu sắc, cịn Google và Yandex thiêng về tính hiệu quả nhiều hơn.

Ngồi ra, Google có hỗ trợ ngơn ngữ Tiếng Việt cho người dùng Việt

Một phần của tài liệu Chuyên đề “công nghệ tri thức” (Trang 45)

Tải bản đầy đủ (DOC)

(73 trang)
w