Hiện nay, các công cụ hỗ trợ SEO hầu hết sử dụng phương pháp tìm chuỗi trong một văn bản HTML, phương pháp này hết sức hiệu quả và nhanh chóng với một văn bản HTML đã được định dạng đúng chuẩn HTML và W3C. Với chuẩn này, nhiều website không tuân thủ. Do vậy, thử nghiệm một phương thức mới có tên là DOM (Document Object Model) [15] và kết hợp một vài biểu thức chính quy Regular Expression để tiến hành tìm kiếm thông tin một cách chính xác.
Hình 20 - Sơ đồ thông tin chung (Nguồn: tác giả)
Với thông tin của một trang, công cụ lọc ra những thông tin về title, meta, link, image, h1, h2, h3, bold, italic thông qua các phương thức chủ yếu trong file infopage.php. public function is_inlink($content)
{ $pattern = '/^http+[^.]+\.[^.]/'; $pattern = '/^http+[^.]+\.[^.]/'; if(preg_match($pattern,$content,$match)) return $match[0]; else return false; }
function is_inlink($content) kiểm tra có đúng đường dẫn không
public function index_action() {
if( !empty($_POST['q']) ){ $_q = $_POST['q'];
$_q = base64_encode(str_replace(array('http://','www.'),'',$_q)); $_q = str_replace('==','',$_q);
header('Location: '. URL_BASE . 'infopage/' . $_q); exit();
}
/**** Title tag *****/
$this->_['titletag'] = $titletag = strip_tags(trim(@$html->find('title', 0)->plaintext)); $this->_['titletag_none'] = empty($titletag)?'display:none':'';
Trả về nội dung của thẻ title.
4.2.3. Kết quả
Thông tin thu được từ công cụ thông tin chung cho ra một kết quả chính xác. Theo thống kê khi công cụ bắt đầu chạy thì mất khoảng 1 đến 3 giây để xử lý và rút trích thông tin của một URL đã nhập vào. Thời gian xử lý phụ thuộc vào một số yếu tố như: cấu trúc HTML có gọn nhẹ hay không, có nhiều hay ít tiêu chí đánh giá của Google trên URL đó hay không nếu nhiều tiêu chí thì việc rút trích sẽ lâu hơn, server lưu trữ website đó có mạnh không nếu tốc độ xử lý của server chậm thì cũng ảnh hưởng tới thời gian.