Trích xuất URL là quá trình phân tích mã HTML của một trang Web và lấy ra những liên kết có trong trang đó. Chuẩn hóa URL là sự biến đổi những liên kết lấy về trở thành một dạng tiêu chuẩn và thống nhất về định dạng.
Thông thường, để có thể lấy được những URL bên trong một tài liệu HTML, chúng ta có thể tìm đến những Anchor Tags (thẻ <A>) và lấy giá trị của thuộc tính HREF. Tuy nhiên, chúng ta cần phải chuyển đổi tất cả những URL đó trở về những URL có định dạng tuyệt đốị Đây là một bước rất quan trọng nhằm tránh trường hợp phân tích những URL có định dạng khác nhau nhưng lại hướng đến một trang Web duy nhất. Dưới đây là một số thủ tục tiêu biểu để chuẩn hóa một URL:
Chuyển đổi giao thức và tên của máy chủ về ký tự thường.
Ví dụ: chuyển từ
HTTP://www.siụedụvn trở thành http://www.siụedụvn.
Loại bỏ những phần là Bookmark của URL.
Ví dụ như:
http://www.siụedụvn/index.html#top
trở thành http://www.mtạedụvn/index.html
Chuyển đổi những ký tự đặt biệt (ví dụ: ‘~’) theo một quy định thống nhất. Công việc này nhằm tránh trường hợp crawler nhầm lẫn giữa
http://www.siụedụvn/~contact/
và http://www.siụedụvn/%7Econtact/
Một vài URL, có thêm vào dấu chéo sau cùng (http://www.siu.edụvn/) và cũng có một số trường hợp trong cùng Site đó lại không như vậy (http://www.siu.edụvn). Nhưng vậy ta phải định nghĩa một quy tắc, hoặc là đưa vào hoặc là loại bỏ.
Loại bỏ chỉ dẫn ‘..’ và thư mục cha của nó trong URL. Ví dụ: /%7Epant/BizIntel/Seeds/../ODPSeeds.dat trở thành /%7Epant/BizIntel/ODPSeeds.dat
Việc thống nhất và áp dụng những quy tắc chuẩn hóa là rất quan trọng với Crawler, những quy tắc này sẽ tăng hiệu suất phân tích nếu như nó được định nghĩa một tập luật tối ưụ
28