Kết quả thu thập thông tin

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 71 - 73)

Ban đầu hệ thống thu thập kết quả thông tin dựa trên ba công cụ tìm kiếm lớn là Google, Bing và Yahoo. Với cùng một từ khóa “Thi tốt nghiệp 2015”, mỗi công cụ lại cung cấp mức độ tìm kiếm khác nhau, cụ thể:

Google cho phép truy vấn qua url bằng cách thêm các cặp tham số - giá trị vào đƣờng dẫn, tôi sử dụng các tham số tìm kiếm để thêm vài url là:

 lr=lang_vi: ngôn ngữ Việt Nam.

 q=“Thi tốt nghiệp 2015” : từ khóa tìm kiếm. Đối với các từ khóa tìm kiếm chữ in hoa và chữ thƣờng hệ thống sẽ cho ra cùng một kết quả.  safe=“off”: chế độ tìm kiếm an toàn.

 start=i: trong đó i là vị trí bắt đầu của một trang. Với i = 1, trang tìm kiếm trả về sẽ có 10 kết quả bắt đầu từ kết quả số 1, tƣơng tự với i = 11, trang tìm kiếm trả về sẽ là trang 2 với 10 kết quả bắt đầu từ trang số 11.  tbs=qdr:h: lọc các kết quả trong thời gian 1 giờ trở lại.

Google trả về số lƣợng kết quả lớn, tỉ lệ các trang bằng Tiếng Việt nhiều và đa phần là tin từ các trang đƣợc xếp hạng cao bởi Google[2].

Bing cung cấp hạn chế hơn các tham số truyền vào và giới hạn khả năng tìm kiếm. Cùng với một từ khóa, khi tôi sử dụng tìm kiếm trực tiếp mà không đăng nhập vào bằng tài khoản Microsoft thì lƣợng kết quả hạn chế hơn rất nhiều so với khi đã đăng nhập. Để lọc những tin bài theo thời gian Bing cung cấp tham số:

filters=ex1%3a”ez1” để lọc theo 24 giờ qua, filters=ex1%3a”ez2” để lọc theo 1 tuần qua, v.v mà không lọc đƣợc theo giờ qua. Mặt khác các trang web đƣợc Bing ƣu tiên đƣa lên đầu hầu hết là các trang nƣớc ngoài, tần số những trang Việt Nam rất hạn chế mặc dù khi sử dụng từ khóa là Tiếng Việt.

Yahoo: sử dụng một số các cặp tham số - giá trị mà yahoo cung cấp để thêm vào url tìm kiếm :

 ei=UTF-8: encode utf-8

 p=”Thi+tốt+nghiệp+2015”: từ khóa tìm kiếm.  btf=d: lọc các kết quả trong 24 giờ qua.

 b=i: trong đó i là vị trí của kết quả đầu tiên của một trang. Với i bằng 1, sẽ trả về trang đầu tiên với 10 kết quả bắt đầu từ kết quả số 1. Với i bằng 11, sẽ trả về trang với 10 kết quả bắt đầu từ kết quả số 11.

Tƣơng tự nhƣ Bing, Yahoo chỉ cho phép lọc các kết quả trong 24 giờ qua thay vì 1 giờ qua nhƣ của Google. Các trang kết quả trả về từ các website có xếp hạng cao do Yahoo đánh giá.

Vì thế, nhƣ những yêu cầu thực tế đặt ra đã trình bày trong chƣơng 2, các kết quả tìm kiếm phải liên quan đến từ khóa, từ các nguồn đƣợc đánh giá cao, và trong thời gian sớm nhất (ít nhất là 1 giờ trở lại thời điểm hiện tại) nên luận văn chỉ sử dụng các kết quả tìm kiếm từ công cụ Google search để phục vụ cho yêu cầu của hệ thống.

Hệ thống thực hiện truy vấn đến Google với mỗi từ khóa sẽ giới hạn 5 trang kết quả để lấy 50 kết quả đầu tiên. Sau mỗi 10 phút hệ thống sẽ thực hiện tuy vấn tìm kiếm một lần. Kết quả tìm kiếm với hai từ khóa: “Thi tốt nghiệp 2015” và “Nguyễn Thị Ánh Viên”

- Về thời gian phản hồi: Tùy vào tốc độ mạng và cấu hình máy thực nghiệm mà cho thời gian phản hồi có biên độ khác nhau khá lớn. Với 2 từ khóa trên xét 8 lần truy vấn gần nhau nhất từ 19h đến 21h ngày 14 tháng 6 năm 2015 ta có bảng thời gian chạy nhƣ sau:

Bảng 3.12: Bảng thời gian hoàn thành.

STT Thời gian hoàn thành (ms)

1 366382 2 366060 3 380143 4 374018 5 371823 6 369082 7 390283 8 380271 Trung bình 374757.8

- Về số lƣợng các kết quả: hệ thống chạy liên tục trong 7 ngày từ 10h ngày 8 tháng 6 năm 2015 đến 22h ngày 15 tháng 6 năm 2015 thu đƣợc số lƣợng các kết quả trong cơ sở dữ liệu nhƣ sau

Bảng 3.13: Bảng số lượng kết quả.

Từ khóa Số lƣợng kết quả Thi tốt nghiệp 2015 1871

Nguyễn Thị Ánh Viên 1653

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 71 - 73)