Đây là chương hướng dẫn cách lấy dữ liệu từ WEB và sử dụng vào mục đích khác trong ứng dụng của riêng bạn. Như đã đề cập trong Chương 1, các trang web được lưu trữ trên máy tính chạy phần mềm máy chủ web như Microsoft Internet Information Services (IIS) hoặc Apache. Giao thức truyền siêu văn bản (HTTP) được sử dụng để giao tiếp với các ứng dụng và lấy các trang web.
Có nhiều lý do tại sao một ứng dụng có thể tương tác với một trang web Web, như sau:
+ Kiểm tra các bản cập nhật và tải về các bản vá lỗi và nâng cấp.
+ Lấy thông tin về dữ liệu mà thay đổi từ giờ này sang giờ khác (ví dụ như Chia sẻ các giá trị, tỷ lệ chuyển đổi tiền tệ, thời tiết)
+ Tự động truy vấn dữ liệu từ các dịch vụ do bên thứ ba (ví dụ như Zip code tra cứu, thư mục điện thoại, dịch vụ dịch thuật ngôn ngữ)
+ Xây dựng một công cụ tìm kiếm.
+ Cache các trang web để truy cập nhanh hơn hoặc hoạt động như một chủ proxy.
Nửa đầu của chương này mô tả làm thế nào để gửi và nhận dữ liệu đến các máy chủ web. Điều này bao gồm một ví dụ về làm thế nào để thao tác các dữ liệu HTML nhận được từ máy chủ web. Chương này được ký kết với một thực hiện một máy chủ web tùy chỉnh, mà có thể được sử dụng thay vì IIS.
Data mining
Khai thác dữ liệu là một ứng dụng tải một trang web và các chiết xuất thông tin cụ thể từ nó sẽ tự động. Nó thường đề cập đến việc thu hồi số lượng lớn dữ liệu từ các trang web mà không bao giờ được thiết kế để đọc tự động. Một ứng dụng mẫu có thể là một hướng dẫn chương trình truyền hình mà có thể tải về thông tin lập kế hoạch từ các trang web Web TV và lưu trữ nó trong một cơ sở dữ liệu để tham khảo nhanh.
Lưu ý: Bạn nên luôn luôn kiểm tra với quản trị trang web cho dù họ cho phép khai thác dữ liệu trên các trang web của họ bởi vì nó có thể vi phạm quyền tác giả hoặc đặt tải quá nhiều trên các máy chủ của họ. Không được phép khai thác dữ liệu có thể dẫn đến một quản trị viên Web chặn địa chỉ IP của bạn hoặc tệ hơn!
Để trích xuất dữ liệu hữu ích từ HTML này, bạn sẽ cần phải được làm quen với ngôn ngữ và giỏi việc nhận các mẫu của HTML có chứa các dữ liệu cần thiết, tuy nhiên, một số sản phẩm tốt thương mại hỗ trợ các nhà phát triển với khai thác dữ liệu từ trang HTML, và giải pháp không phải luôn luôn là ý tưởng tốt nhất.