Thuật toán MatrixNet

Một phần của tài liệu Chuyên đề “công nghệ tri thức” (Trang 50 - 51)

III. Yandex

5. Thuật toán MatrixNet

Năm 2009, Yandex sử dụng một phương thức máy học mới chống lại dữ liệu quá rộng, cho phép Yandex đưa vào tài khoản một lượng lớn các yếu tố phù hợp với kết quả tìm kiếm. Nhưng giờ, các hệ thống tìm kiếm khơng cần nhiều mẫu của kết quả tìm kiếm để tìm hiểu làm thế nào là “tốt” từ “khơng tốt lắm”. Để đảm bảo an toàn cho hệ thống khơng mắc lỗi, Yandex sẽ tiến hành tìm kiếm độc lập các mẫu không tồn tại.

MatrixNet cho phép tạo ra một công thức xếp hạng dài và phức tạp từ việc xem xét nhiều yếu tố khác nhau cũng như sự kết hợp của chúng. Các phương pháp máy học luân phiên nhau tạo ra các công thức đơn giản hơn bằng cách sử dụng một số lượng nhỏ các yếu tố hoặc yêu cầu một mẫu học tập lớn hơn. MatrixNet xây dựng một công thức dựa trên hàng chục ngàn yếu tố, làm tăng đáng kể các kết quả tìm kiếm liên quan.

Một tính năng quan trọng khác của MatrixNet là cho phép tùy chỉnh công thức xếp hạng đối với một lớp truy vấn tìm kiếm cụ thể mà khơng làm suy yếu chất lượng xếp hạng của các truy vấn khác, cũng như không gây ra các thay đổi lớn của toàn hệ thống.

Đối với mỗi truy vấn, địi hỏi phải có một số lượng các máy chủ cũng như thời gian để xem xét yếu tố của hàng triệu trang, mức độ liên quan và xếp hạng chúng lên đầu kết quả tìm kiếm. Điều này có thể gây ra thời gian chờ lâu của người tìm kiếm. MatrixNet có thể giải quyết vấn đề này, ví nó cho phép kiểm tra các trang web với số lượng lớn các yếu tố xếp hạng mà không làm tăng sức mạnh xử lý.

Với mỗi hồi đáp truy vấn, có hơn một ngàn máy chủ thực hiện tìm kiếm cùng lúc. Mỗi máy chủ tìm kiếm trong danh sách chỉ mục riêng của mình để tạo ra một danh sách các kết quả tốt nhất, phù hợp nhất với truy vấn này.

Tiếp theo MatrixNet sử dụng một công thức dài, phức tạp xem xét các yếu tố xếp hạng và sự kết hợp của chúng để tạo ra một danh sách kết quả hoàn chỉnh dựa trên các danh sách kết quả tìm kiếm của mỗi máy chủ. Vì vậy mà các trang web phù hợp nhất sẽ được xếp trên cùng của kết quả tìm kiếm.

Một phần của tài liệu Chuyên đề “công nghệ tri thức” (Trang 50 - 51)

Tải bản đầy đủ (DOC)

(73 trang)
w