Các bước thu thập và xử lý thông tin:
Thu thập thông tin
Thu thập thông tin là quá trình thu thập các Web từ URL của web site chứa các từ hoặc cụm từ yêu cầu mà chúng ta cần tìm kiếm. Đối với người sử dụng hiện tại, việc thu thập thông tin thường được thực hiện qua các URL mà người sử dụng đã biết hoặc qua các engine tìm kiếm. Các engine tìm kiếm là các chương trình được viết để có thể truy vấn và thu thập dữ liệu được lưu trong cơ sở dữ liệu (có cấu trúc), trang Web (bán cấu trúc) và các văn bản tự do (không có cấu trúc) trên mạng. Hiện tại đã có khá nhiều các
Dữ liệu Web
Thu thập thông tin theo điều kiện, tổng hợp URL đẩy vào hàng đợi
Thu thập thông tin thô từ danh sách URL của hàng đợi
Phân tích & Bóc tách dữ liệu Tổng hợp thông tin và lưu CSDL Kết thúc
engine tìm kiếm mạnh ở thế giới và tại Việt Nam như Google, Yahoo, Bing Altavista, Lycos, Vinaseek,... Các engine này ngày càng cố gắng để có thể tương tác với người sử dụng nhiều và thông minh hơn, tuy vậy không phải là không có những yếu điểm.
Một hệ thống thu thập thông tin lý tưởng phải là một hệ thống thu thập được những thông tin phù hợp nhất với yêu cầu của người sử dụng (yêu cầu này được diễn giải bằng các câu truy vấn). Đây thật sự là một tác vụ vô cùng phức tạp và khó khăn mà hầu hết các hệ thống thu thập thông tin đều chưa thực hiện được triệt để, phần nhiều có thể kể đến là do tính phi ngữ nghĩa của ngôn ngữ HTML. Hầu hết các hệ thống thu thập thông tin hiện nay đều chú trọng tới tốc độ, số lượng thông tin mà các hệ thống này có thể mang lại cho người dùng với các câu truy vấn tương đối đơn giản.
Phân tích và bóc tách dữ liệu
Khi thông tin đã được thu thập và lấy về, việc tiếp theo là phải lấy ra được những thông tin cần thiết và chỉ là những thông tin mà mình cần một cách tự động không cần tới sự thao tác của người sử dụng như tiêu đề, nội dung, tác giả….Hầu hết các thuật toán bóc tách thông tin hiện nay đều dựa vào các công cụ khác nhau trên nền kỹ thuật “wrapper”. Wrapper có thể được hiểu là những hàm để tách thông tin từ các tài nguyên Web. Các hàm này được viết dựa trên các luật (quy luật) đã được đúc rút ra sau khi khảo sát các trang Web chứa thông tin cần lấy. Các Wrapper có thể xây dựng dựa trên rất nhiều quy luật khác nhau và tuỳ thuộc vào mục đích của người sử dụng.
Có lẽ giới hạn lớn nhất của tác vụ bóc tách thông tin này là mỗi một wrapper lại chỉ được sử dụng cho một mục đích nhất định và không liên quan đến nhau. Do vậy, tính khả mở của các wrapper này quả thật không được tốt cho lắm
Trong tác vụ này, các kỹ thuật nhận diện theo mẫu (pattern recognition) và học máy (machine learning) thường được sử dụng đối với các thông tin đã được bóc tách. Hầu hết các hệ thống học máy hiện tại trên Web đều học về ý thích của người sử dụng (tổng quát hơn là thông tin về người sử dụng) nhiều hơn là học về chính trang Web mà các hệ thống này được cài đặt trên đó. Vấn đề này cũng xuất phát từ nguyên nhân dữ liệu hiện nay đang rất dư thừa trên Web nhưng lại không được (không có cơ chế) phân loại theo mặt ngữ nghĩa một cách tự động. Ví dụ, nếu chúng ta có một cơ chế nào đó để xác định được hai tập hợp các trang Web là trang chủ của cá nhân này và không phải là trang chủ của cá nhân khác thì chúng ta sẽ có khả năng tiên đoán được một trang Web mới liệu có phải là trang chủ của một ai đó hay không. Tuy vậy, với tính phi-ngữ nghĩa của HTML, chúng ta khó có thể phân loại được các trang Web này.
+) Tiêu đề của website thông thường đặt trong cặp thẻ <title></title> hoặc trong các cặp thẻ Header <H1></H1><H2></H2>….
+) Mô tả ngắn thường được đặt trong thẻ Meta description
+) Date thường có định dạng YYYY-MM-DD hoặc DD/MM/YYYY ….
+) Nội dung web đặt trong cặp thẻ <Body></Body> nhưng nội dung cụ thể chi tiết có thể thường được đặt trong các thẻ Div, Table…
Nhìn chung với dữ liệu và và cấu trúc website không giống nhau thì việc phân tích các thông tin sau khi đã thu thập được không phải là một công việc dễ dàng ngay cả đối với người sử dụng chứ chưa nói đến đối với máy tính. Thông thường chúng ta có thể cải thiện thông tin thu thập bằng cách xây dựng bộ từ điển dấu hiệu nhận biết thông tin dựa trên việc lặp lại thông tin theo tên miền và thói quen chung khi xây dựng website của các lập trình viên từ đó đưa ra quyết định khi lấy thông tin trong website
Sơ đồ thu thập thông tin trong chương trình Demo: