1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện

20 546 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 833,62 KB

Nội dung

Báo cáo bài tập lớn Xử lý ngôn ngữ tự nhiên Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google Nhóm sinh viên thực hiện : Trần Quốc Huy Nguyễn Huy Triển Lưu Mạnh Linh Nguyễn Hữu Khánh Trần Mạnh Đức Mở đầu Mở đầu  Google được thành lập vào năm 1998, có trụ sở tại Hoa Kỳ.  Sản phẩm chính của công ty là công cụ tìm kiếm Google – được đánh giá là công cụ tìm kiếm hữu ích và được sử dụng nhiều nhất trên Internet. Mở đầu  Các dịch vụ của Google gồm có Tìm kiếm từ khóa, Image Search, Google News, Google Maps, Google Groups … Google Search Engine Google Bot  Google Bot là những “ bọ tìm kiếm “ được phân rải trên các website.  Có chức năng xử lý thông tin trên các website : sàng lọc thông tin mới, thu thập các thông tin này vào kho dữ liệu của Google. Đánh chỉ mục  Google sử dụng hệ thống đánh chỉ mục có tên là GoogleCaWeine.  Nội dung các website phát triển chóng mặt với nhiều hình thức và nội dung phong phú. Người dùng Google cũng đòi hỏi tìm thấy những nội dung mới nhất và phù hợp nhất.   GoogleCaWeine có thể đáp ứng tốt nhu cầu của người dùng. Đánh chỉ mục  GoogleCaWeine cập nhật và phân tích website trên những phần nhỏ và cập nhật chỉ mục tìm kiếm liên tục trên 1 diện rộng.  Người dùng sẽ dễ dàng tìm được các thông tin hữu ích mà ko gặp bất cứ rào cản nào về thời gian và website mà nó được xuất bản. Đánh chỉ mục  Để đem lại khả năng hoạt động khủng như vậy, GoogleCaWeine cũng sẽ phải tiêu tốn của Google một lượng tài nguyên rất “khủng”.  Theo tính toán của Google, 1 giây hệ thống CaWeine có khả năng phân tích và index 100 ngàn trang.  Hệ thống CaWeine chiếm gần 100 triệu Gigabyte lưu trữ và nó lớn lên theo tốc độ hàng trăm ngàn Gb mỗi ngày. [...]... hội  Lượng nội dung gốc Google Panda Algorithm Tiêu chí :  Số lượng các link trỏ đến trang web  Số lượng các từ không tự nhiên trên trang  Tỉ lệ người dùng kích qua các trang kết quả của Google  Tỉ lệ nội dung không trung thực  Số lượng các quảng cáo trên trang web Kết luận  Hệ thống tìm kiếm của Google là một hệ thống tìm kiếm với quy mô rất lớn và rất phức tạp  Hệ thống phát triển và không...Bộ tìm kiếm thông tin  Xử lý các truy vấn từ phía người sử dụng  Tiếp nhận các yêu cầu tìm kiếm, phân tích từ ngữ, tìm kiếm trong Cơ sở dữ liệu chỉ mục, so khớp các từ khóa, lấy về kết quả phù hợp và cuối cùng trả lại những kết quả đó cho người sử dụng PageRank  PageRank được phát triển tại Đại học Stanford bởi Larry Page và sau đó được phát triển bởi Sergey Brin  Hệ thống xếp hạng... thống tìm kiếm của Google là một hệ thống tìm kiếm với quy mô rất lớn và rất phức tạp  Hệ thống phát triển và không ngừng được nâng cấp cải thiện, trở nên gần gũi và hữu ích với người dùng  Những điều chúng tôi đưa ra là cái nhìn tổng quan nhất về hệ thống tìm kiếm Google trong thời điểm này ... bởi Sergey Brin  Hệ thống xếp hạng trang web nhằm xếp thứ tự ưu tiên đường dẫn URL trong trang kết quả tìm kiếm PageRank  Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng càng tăng  Đó là khái niệm sơ đẳng nhất mà người làm web biết đến, trên thực tế thuật toán PageRank phức tạp hơn rất nhiều PageRank  PageRank của Google hiển thị trên Toolbar là 1 số nguyên từ 0 đến 10  Đơn... tính giá trị PageRank của 1 trang A PR(A)=(1-d)+d*( +…+ ) Google Panda Algorithm  Tháng 11 – 2011, Google chính thức thay đổi thuật toán Ranking của mình lấy tên là Panda  Mục đích loại bỏ hoặc giảm chỉ số xếp hạng của các trang web có nội dung kém chất lượng, chủ yếu sưu tập từ trang khác, tăng chỉ số các trang có nội dung nguồn chất lượng Google Panda Algorithm Tiêu chí :  “ Content is king “  . Báo cáo bài tập lớn Xử lý ngôn ngữ tự nhiên Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google Nhóm. quảng cáo trên trang web. Kết luận  Hệ thống tìm kiếm của Google là một hệ thống tìm kiếm với quy mô rất lớn và rất phức tạp.  Hệ thống phát triển và không ngừng được nâng cấp cải thiện,. Maps, Google Groups … Google Search Engine Google Bot  Google Bot là những “ bọ tìm kiếm “ được phân rải trên các website.  Có chức năng xử lý thông tin trên các website : sàng lọc thông tin

Ngày đăng: 23/10/2014, 23:39

TỪ KHÓA LIÊN QUAN

w