CHƢƠNG 2 MỘT SỐ HỆ THỐNG THU THẬP DỮ LIỆU
2.3. Hệ thống thu thập dữ liệu từ Twitte r TwitterEcho
Các dịch vụ truyền thông đa phƣơng tiện xã hội (social media) đã nổi lên trong vài thập kỷ gần đây, thay đổi cách mà chúng ta thông tin với nhau. Do đó, chúng trở thành đối tƣợng nghiên cứu trong một vài lĩnh vực bao gồm thu thập thông tin, phân tích mạng xã hội. Việc thu thập dữ liệu cho dịch vụ này thƣờng là vấn đề phức tạp vì các dịch vụ thƣờng không kết nối trực tiếp tới nơi mà dữ liệu đó đƣợc sinh ra, thậm chí cho mục đích nghiên cứu. Do đó, những nhà nghiên cứu cần xây dựng hệ thống cho việc thu thập dữ liệu đó hoặc là sử dụng các API đƣợc cung cấp bởi mạng xã hội, hoặc là thu thập dữ liệu thông qua Web Crawler.
Đặc biệt mạng xã hội Twitter chứa đựng nguồn thông tin cho việc nghiên cứu, từ việc phân tích tƣơng tác của ngƣời sử dụng, phân tích việc sử dụng hashtag, và trích dẫn URL, phân tích nội dung cụ thể nào đó (ví dụ: phân tích sự lan truyền của dịch cúm, điều tra số lƣợng ngƣời nƣớc ngoài nói tiếng Bồ Đào Nha).
Yêu cầu kỹ thuật trong TwitterEcho:
- Tôn trọng giới hạn (Adhering to limitations) - Vận hành liên tục (Continuous Operation)
- Khả năng mở rộng thời gian thực (Run-time expandability) - Đầy đủ dữ liệu (Data completeness)
- Tha thứ lỗi (Fault tolerance) - Module hoá (Modularity)
Hình 2-4 dƣới đây mô tả kiến trúc phân tán tập trung của TwitterEcho của ba tác giả Masko Bosnjak, Eduardo Oliveira, Jose Martins.
Hình 2-4 Kiến trúc của TwitterEcho
- "Client": b ng việc sử dụng nhiều Client, chúng ta có thể tạo đƣợc hệ thống mở rộng để tăng lƣợng request tới Twitter API.
- "Server": nhiệm vụ chính của Server là: (1) điều phối quá trình thu thập dữ liệu thông qua việc cấp phát dánh sách các ngƣời dùng tới Client, và (2) lƣu trữ dữ liệu đã đƣợc download.