Thuật toán trích xuất từ khóa cho trang web bằng phương pháp phân tích thẻ HTML và đồ thị web

MỤC LỤC

Giới thiệu bài toán trích xuất từ khoá cho trang web

Các vấn đề khác

Mặc dù từ khoá “insurance companies” có tính phổ biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies” sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ..Các trang có nội dung tập trung như bài báo điện tử, bài viết hướng dẫn, một bài văn..Nói chung, việc lọc nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa. Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm[4].

Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm

Các công trình liên quan

Phương pháp sử dụng học máy

Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson [12], dựa vào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêu đề của văn bản, ví trị của câu trong văn bản. Người viết khi viết về văn bản của mình thì phải luôn chú trọng đến nội dung, cũng như cách thể hiện tiêu đề sao cho người đọc chỉ cần nhìn qua vào tiêu đề có thể hiểu được nội dung của toàn bộ văn bản. Các câu tiêu đề có thể được coi như là phần tóm tắt ngắn gọn của văn bản, các từ có nghĩa tương tự, hay những từ lặp lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng.

Trong khi GenEX dùng giải thuật di truyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Nạve Bayes decision rule) trên 2 thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của văn bản. Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cách tiếp cận bài toán theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phân lớp cây quyết định để có thể nhận dạng chính xác từ khóa. Trong một câu, chuỗi từ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và các quan hệ đồng nghĩa, trái nghĩa, là (is a), có (has a)..Công việc khó khăn nhất đó chính là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet.

Tác giả chọn thuật toán cây quyết định C4.5 với các thuộc tính là : vị trí xuất hiện đầu tiên, tần số xuất hiện, vị trí xuất hiện cuối cùng, và một thuộc tính lấy từ chuỗi từ vựng đã sinh ra từ. Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn và cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web. Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từ khoá hạt giống (seed keyword) và tìm ra được những từ khoá từ những trang liên quan trả về từ máy tìm kiếm.

Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khóa cho các trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khóa này.

Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com

Hướng giải quyết và đề xuất mô hình bài toán

Sử dụng đồ thị web 1. Định nghĩa đồ thị Web
Mô đun sinh từ khóa

Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa. Trước hết, áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất. Như đã nhắc về các công trình liên quan tại chương II [25][13], tần số từ (TF) là một trong những phương pháp có thể áp dụng không những trong văn bản , mà còn trong cả web.

Phương pháp của tôi đề xuất không tính trực tiếp tần số xuất hiện của các từ khóa trong văn bản web, nhưng cũng gián tiếp tính tần số của chúng nhưng theo độ quan trọng khác nhau của mỗi loại thẻ HTML quan tâm. Chính vì các trang web trên Internet hiện nay là rất lớn, và có rất nhiều liên kết, nên việc tạo được một đồ thị web cho liên quan đến các trang lớn đòi hỏi nhiều thời gian và phức tạp. Trang A có các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A, nhưng nhiều trường hợp tập các trang lại không liên quan nhiều đến trang A đó.

Để tìm được các link liên kết đến trang cần sinh từ khóa, tôi sử dụng công cụ máy tìm kiếm như google, yahoo, altavista để tìm ra các link trỏ đến trang web mà ta đang muốn có từ khóa. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress Qua việc xử lý kết quả trả về qua các máy tìm kiếm, chúng ta kết nối, tải các trang liên quan này về rồi phân tích cấu trúc của các trang web này. Việc sử dụng máy tìm kiếm làm công cụ trung gian không những giúp tìm các trang có liên kết đến trang ta cần sinh từ khóa, mà còn giảm đi lượng lớn các trang không đúng, thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm.

Như đã đề cập ở chương I, các máy tìm kiếm có một lợi thế khi họ ghi lại quá trình sử dụng của người dùng để có thể hướng đến chủ đề người dùng quan tâm, hay cách nghĩ của họ về các trang web.  Mô đun Crawler2: Dựa vào máy tìm kiếm google, yahoo, mô đun lấy về toàn bộ các trang web mà trong nó có liên kết trỏ đến những trang ta cần sinh từ khoá (tôi chỉ quan tâm thẻ a có địa chỉ chính xác như domain của trang web cần phân tích). Ngoài ra, tôi cũng đề xuất thêm các môđun sinh từ khóa qua phân tích log (đối với các trang web tiếng Anh) và mô đun sinh từ khóa gán qua từ điển(đối với các trang ngắn bằng tiếng Việt).

Bảng 1. Bảng trọng số các thẻ HTML trongTextNet

Thực nghiệm và đánh giá

Môi trường phần cứng

Content_method Cài đặt thuật toán sinh từ khóa dựa vào nội dung và độ quan trọng thẻ HTML. Dictionary_method Cài đặt thuật toán sinh từ khóa dựa vào tập từ điển cho trước. Link_method Cài đặt thuật toán sinh từ khóa dựa vào liên kết trỏ đến c.

Dữ liệu thử nghiệm a. Các trang chủ

Đối với các bài báo (những trang có nội dung tập trung) tôi chỉ lấy một số bài của trang Việt Báo [43], và thử nghiệm và so sánh với các kết quả từ khóa của Việt Báo bằng phương pháp gán từ khóa dựa vào từ điển. Tôi thấy rằng các trang chủ của các trang tiếng Anh được bố trí các phần tốt hơn các trang tiếng Việt vì lượng từ khóa sinh ra đối với tiếng Anh tốt hơn, đa dạng hơn. Phương pháp sử dụng độ quan trọng của thẻ HTML đã cho thấy ưu điểm, khi tìm thấy các từ khóa vừa mang tính phổ biến vừa mang tính đặc trưng của các trang web.

Tuy nhiên dùng từ điển hỗ trợ thì sẽ bất lợi là phải trích xuất đúng được phần văn bản của trang web và thời gian để chạy đối với các trang web có nội dung dài là không nhanh. - Theo thông tính chính thức từ CLB Juventus, trung vệ người Italy Fabio Cannavaro đã đồng ý ký vào bản hợp đồng có thời hạn 1đội bóng năm với đội bóng thành Turin. Trên website Juventus, thông tin về việc trung vệ Fabio Cannavaro đã quay trở lại sân Del Alphi đã nhanh chóng được các fan hâm mộ của "Bà đầm già" chào đón.

Tuy nhiên, có thời gian cầu thủ này bị gọi là "kẻ phản bội" khi nhanh nhẩu chạy tới Real Madrid khi Juventus bị đánh tụt hạng sau vụ bê bối cách đây vài năm trước. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử Từ khóa của Việt báo Từ khóa của chương trình Fabio Cannavaro, CLB Juventus, Italy Fabio. Thời gian để chạy cho một trang với phương pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm:. google, yahoo, altavista ), các kết quả trả về thường lớn.

Đối với log chúng tôi sử dụng, số lượng trang web trong nó chỉ chiếm lượng nhỏ của Internet, cho nên đối với một số trang tiếng Anh không xuất hiện trong log, hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng.

Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh