Giới thiệu về HTTP

Mục tiêu: trình bày giao thức HTTP và công dụng của nó

Có nhiều lý do tại sao một ứng dụng có thể tương tác với một trang web

Web, như sau:

+ Kiểm tra các bản cập nhật và tải về các bản vá lỗi và nâng cấp.

+ Lấy thông tin về dữ liệu mà thay đổi từ giờ này sang giờ khác (ví dụ

như Chia sẻ các giá trị, tỷ lệ chuyển đổi tiền tệ, thời tiết)

+ Tự động truy vấn dữ liệu từ các dịch vụ do bên thứ ba (ví dụ như Zip

code tra cứu, thư mục điện thoại, dịch vụ dịch thuật ngôn ngữ)

+ Xây dựng một công cụ tìm kiếm.

+ Cache các trang web để truy cập nhanh hơn hoặc hoạt động như một

chủ proxy.

Nửa đầu của chương này mô tả làm thế nào để gửi và nhận dữ liệu đến

các máy chủ web. Điều này bao gồm một ví dụ về làm thế nào để thao tác các

dữ liệu HTML nhận được từ máy chủ web. Chương này được ký kết với một

thực hiện một máy chủ web tùy chỉnh, mà có thể được sử dụng thay vì IIS.

Data mining

Khai thác dữ liệu là một ứng dụng tải một trang web và các chiết xuất

thông tin cụ thể từ nó sẽ tự động. Nó thường đề cập đến việc thu hồi số lượng

lớn dữ liệu từ các trang web mà không bao giờ được thiết kế để đọc tự động. Một ứng dụng mẫu có thể là một hướng dẫn chương trình truyền hình mà có thể

tải về thông tin lập kế hoạch từ các trang web Web TV và lưu trữ nó trong một cơ sở dữ liệuđể tham khảo nhanh.

Lưu ý: Bạn nên luôn luôn kiểm tra với quản trị trang web cho dù họ cho phép khai thác dữ liệu trên các trang web của họ bởi vì nó có thể vi phạm

quyền tác giả hoặc đặt tải quá nhiều trên các máy chủ của họ. Không được phép

khai thác dữ liệu có thể dẫn đến một quản trị viên Web chặn địa chỉ IP của bạn

hoặc tệ hơn!

Để trích xuất dữ liệu hữu ích từ HTML này, bạn sẽ cần phải được làm quen với ngôn ngữ và giỏi việc nhận các mẫu của HTML có chứa các dữ

triển với khai thác dữ liệu từ trang HTML, và giải pháp không phải luôn luôn là ý tưởng tốt nhất.

Sử dụng StreamReader để đọc tập tin Text

Giới thiệu về socket trong lập trình mạng