Mục tiêu: trình bày giao thức HTTP và công dụng của nó
Có nhiều lý do tại sao một ứng dụng có thể tương tác với một trang web
Web, như sau:
+ Kiểm tra các bản cập nhật và tải về các bản vá lỗi và nâng cấp.
+ Lấy thông tin về dữ liệu mà thay đổi từ giờ này sang giờ khác (ví dụ
như Chia sẻ các giá trị, tỷ lệ chuyển đổi tiền tệ, thời tiết)
+ Tự động truy vấn dữ liệu từ các dịch vụ do bên thứ ba (ví dụ như Zip
code tra cứu, thư mục điện thoại, dịch vụ dịch thuật ngôn ngữ)
+ Xây dựng một công cụ tìm kiếm.
+ Cache các trang web để truy cập nhanh hơn hoặc hoạt động như một
chủ proxy.
Nửa đầu của chương này mô tả làm thế nào để gửi và nhận dữ liệu đến
các máy chủ web. Điều này bao gồm một ví dụ về làm thế nào để thao tác các
dữ liệu HTML nhận được từ máy chủ web. Chương này được ký kết với một
thực hiện một máy chủ web tùy chỉnh, mà có thể được sử dụng thay vì IIS.
Data mining
Khai thác dữ liệu là một ứng dụng tải một trang web và các chiết xuất
thông tin cụ thể từ nó sẽ tự động. Nó thường đề cập đến việc thu hồi số lượng
lớn dữ liệu từ các trang web mà không bao giờ được thiết kế để đọc tự động. Một ứng dụng mẫu có thể là một hướng dẫn chương trình truyền hình mà có thể
tải về thông tin lập kế hoạch từ các trang web Web TV và lưu trữ nó trong một cơ sở dữ liệuđể tham khảo nhanh.
Lưu ý: Bạn nên luôn luôn kiểm tra với quản trị trang web cho dù họ cho phép khai thác dữ liệu trên các trang web của họ bởi vì nó có thể vi phạm
quyền tác giả hoặc đặt tải quá nhiều trên các máy chủ của họ. Không được phép
khai thác dữ liệu có thể dẫn đến một quản trị viên Web chặn địa chỉ IP của bạn
hoặc tệ hơn!
Để trích xuất dữ liệu hữu ích từ HTML này, bạn sẽ cần phải được làm quen với ngôn ngữ và giỏi việc nhận các mẫu của HTML có chứa các dữ
triển với khai thác dữ liệu từ trang HTML, và giải pháp không phải luôn luôn là ý tưởng tốt nhất.