CRAWLER CHO TÌM KIẾM MP3

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 71 - 72)

1. MỤC ĐÍC H

3.1.CRAWLER CHO TÌM KIẾM MP3

Phần này tương ứng với phần lý thuyết 1.5. Công việc chính của Crawler là tải thông tin về các bài hát Mp3 về máy chủ để lưu trữ lại, phục vụ cho những công việc khác. Tuy nhiên, ở đây có 2 dạng thông tin về Mp3 là thông tin về bài hát dạng Text và nội dung của bài hát (có thể nghe được).

3.1.1. Các vấn đề đặt ra với crawler

3.1.1.1. Lựa chọn trang MP3 nào để khám phá?

Hiện nay, cùng với sự phát triển của đường truyền, đã có khá nhiều trang Web cung cấp chức năng nghe nhạc miễn phí như Socbaỵcom, Zing.com.vn, BaamBoọcom; Xalọcom.vn… Số lượng trang Web chứa nhạc không nhiều (chỉ khoảng 50 site). Do đó, việc lựa chọn khám phá trang MP3 để bắt đầu là rất dễ dàng: Ta chọn những trang có đường truyền tốt nhất và chất lượng nhạc cao nhất.

Ở các trang nghe nhạc tốt, sẽ luôn có một đội biên tập nội dung và cố gắng chỉnh sửa cho dữ liệu là tốt nhất. Do đó, về mặt dữ liệu thì tỉ lệ dữ liệu hỏng, lỗi là thấp hơn Web rất nhiềụ

3.1.1.2. Trích rút liên kết bài hát từ các trang Mp3 như thế nàỏ

Bởi vì các trang nghe nhạc thường có cấu trúc không quá phức tạp, nội dung của chúng khá đơn giản và thuần nhất. Do đó, chúng ta chỉ cần nghiên cứu, phân tích kỹ một số rất ít các cách hiển thị kết quả tìm kiếm để tìm ra dạng lưu thông tin về Mp3 của trang Web là đủ. Một trang web chỉ cần phân tích một trang con của nó.

Vì số lượng các bài hát tiếng Việt là không quá lớn – chỉ khoảng tối đa 3 triệu bài cho nên việc duyệt lại toàn bộ dữ liệu cũng không quá khó khăn. Hơn nữa tốc độ cập nhật bài hát mới là không caọ Bởi vì, thực ra bài hát tiếng Việt và những bài hát khác không thể viết mới hàng ngày được.

3.1.1.4. Giảm tải cho máy phục vụ Mp3

Dựa vào đặc điểm: những bài hát mới ra đời sẽ được đội biên tập đưa lên một mục đặc biệt là bài hát mớị Bản thân các ca sỹ, nhạc sỹ, nhà sản xuất (số lượng không nhiều lắm) luôn cố gắng tổ chức quảng cáo, PR cho những bài hát mới một cách hết sức chủ động, nhiệt tình.. Do đó, nếu ta tập trung Crawler ở mục bài hát mới thì kết quả sẽ rất khả quan. Như thế, sẽ giảm tải được cho máy chủ

3.1.1.5. Tốc độ crawl và crawl song song

Do số lượng trang Mp3 không lớn và tốc độ cập nhật dữ liệu không cao nên cũng không cần phải sử dụng cơ chế tăng tốc độ, xử lý song song… Như vậy, ở đây bài toán phân tán đã được giải quyết bằng cách né tránh. Ngay cả bài toán Crawl lưu động cũng không cần được tính đến ở đây vì không cần thiết.

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 71 - 72)