Các chiến lược lựa chọn trang Mp3 trong quá trình crawl

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 72 - 73)

1. MỤC ĐÍC H

3.1.2.Các chiến lược lựa chọn trang Mp3 trong quá trình crawl

Phần này tương ứng với lý thuyết được nêu trong phần 1.5.3. Có những bài hát được thu với chất lượng cao, dung lượng lớn để cho những thiết bị âm thanh chất lượng caọ Ngược lại, có những bài hát chỉ cần chất lượng vừa phải mà dung lượng càng nhỏ càng tốt vì chúng được dùng trong những phương tiện nghe nhìn nhỏ như điện thoại di động…Vì thế, có rất nhiều phiên bản khác nhau cho cùng một bài hát và rất có thể có nhiều host cùng chứa một bài giống nhaụ Do đó, cần có chiến lược trong việc lựa chọn bài hát. Chiến lược trong việc lựa chọn trang Mp3 có lẽ là bắt đầu từ một trang có số lượng nhiều nhất, chất lượng tốt nhất để làm kho gốc. Sau đó, khi crawler trên những trang khác thì so sánh với trang gốc đó để tạo ra một tập hợp các kho một cách hợp lý. Việc xác định mức độ quan trọng có thể làm bằng taỵ Chúng ta có thể tiến hành tự thử nghiệm download từ các host nào đó một số bài hát ngẫu nhiên, nghe thử và đánh giá chất lượng host.

3.1.2.1. Các kiểu crawlers (crawler models)

Chiến lược crawler ở đây nên là Crawl and Stop: Chúng ta chọn những thời

điểm mà server host phải phục vụ ít nhất (lúc 4 giờ sáng chẳng hạn) và tiến hành Crawler một số bài hát nào đó trên một số trang. Bởi vì không có nhiều bài hát cập nhật nên công việc này không quá khó khăn.

3.1.2.2. Thứ tự crawl các URLs

Crawler theo chiều sâu ở đây là hợp lý. Bởi vì khả năng liên kết giữa các site nhạc là rất thấp. Các trang nhạc quảng cáo cho chính trang ấy chứ ít khi đưa liên kết

đến một trang khác. Dữ liệu của site nhạc được dấu sâu trong lòng các sitẹ Bản thân các site này cũng muốn có tất cả các bài hát nên chúng ta phải đưa ra các truy vấn cho các site nhạc và cố gắng thu thập càng nhiều kết quả càng tốt.

3.1.3. Tăng tốc độ crawl và crawl song song

Không cần thiết tăng tốc độ trong trường hợp này vì dữ liệu là không lớn. Tuy nhiên, chúng ta có thể sử dụng tính năng đa luồn của một máy chủ để có thể tải đồng thời nhiều bài hát từ nhiều nguồn khác nhaụ

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 72 - 73)