MỤC LỤC
Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ..Các trang có nội dung tập trung như bài báo điện tử, bài viết hướng dẫn, một bài văn..Nói chung, việc lọc nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa. Ví dụ như trong Hình 4, người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5, những từ khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại, như người dùng có thể xem các bài viết liên quan đến phát xít, duyệt binh, hồng quân, thủ tướng Nga, tổng thống Nga, Nga.
Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson [12], dựa vào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêu đề của văn bản, ví trị của câu trong văn bản. Các câu tiêu đề có thể được coi như là phần tóm tắt ngắn gọn của văn bản, các từ có nghĩa tương tự, hay những từ lặp lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng. Trong khi GenEX dùng giải thuật di truyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Nạve Bayes decision rule) trên 2 thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của.
Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cách tiếp cận bài toán theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phân lớp cây quyết định để có thể nhận dạng chính xác từ khóa. Trong một câu, chuỗi từ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và các quan hệ đồng nghĩa, trái nghĩa, là (is a), có (has a)..Công việc khó khăn nhất đó chính là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet. Tác giả chọn thuật toán cây quyết định C4.5 với các thuộc tính là : vị trí xuất hiện đầu tiên, tần số xuất hiện, vị trí xuất hiện cuối cùng, và một thuộc tính lấy từ chuỗi từ vựng đã sinh ra từ văn bản.
Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn và cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web. Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khóa cho các trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khóa này.
Hay các thẻ như <title> trong văn bản web có chứa tiêu đề của trang web đó. Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa. Trước hết, áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất.
Như đã nhắc về các công trình liên quan tại chương II [25][13], tần số từ (TF) là một trong những phương pháp có thể áp dụng không những trong văn bản , mà còn trong cả web. Phương pháp của tôi đề xuất không tính trực tiếp tần số xuất hiện của các từ khóa trong văn bản web, nhưng cũng gián tiếp tính tần số của chúng nhưng theo độ quan trọng khác nhau của mỗi loại thẻ HTML quan tâm. Một chú ý, ở phương pháp này không dùng IDF do chỉ xét trên chính một trang.
Cho nên, với người soản thảo web, họ sẽ chủ động đặt những từ, câu quan trọng trong các thẻ HTML có độ quan trọng cao. Nhiệm vụ đặt ra là làm sao biết trong HTML thẻ nào là quan trọng, và thẻ nào quan trọng hơn thẻ nào, thẻ nào không quan trọng.
Chính vì các trang web trên Internet hiện nay là rất lớn, và có rất nhiều liên kết, nên việc tạo được một đồ thị web cho liên quan đến các trang lớn đòi hỏi nhiều thời gian và phức tạp. Trang A có các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A, nhưng nhiều trường hợp tập các trang lại không liên quan nhiều đến trang A đó. Vì vậy, chính những phần hiển thị (của phần liên kết trỏ tới các trang) trên trình duyệt nói lên phần nào suy nghĩ của người khác về trang đang được hướng tới.
Giả dụ ở đây, nếu ta muốn sinh từ khóa cho trang dân trí4 , dựa vào phần hiển thị là “Đọc báo trực tuyến Dân Trí” ta có thể trích xuất ra các từ khóa như : đọc báo, trực tuyến, dân trí. Để tìm được các link liên kết đến trang cần sinh từ khóa, tôi sử dụng công cụ máy tìm kiếm như google, yahoo, altavista để tìm ra các link trỏ đến trang web mà ta đang muốn có từ khóa. Do kết quả của các máy tìm kiếm trả về có những trang với tập kết quả rất lớn, nên có thể dùng số lượng các từ khóa để giới hạn việc tải các trang web về.
Việc sử dụng máy tìm kiếm làm công cụ trung gian không những giúp tìm các trang có liên kết đến trang ta cần sinh từ khóa, mà còn giảm đi lượng lớn các trang không đúng, thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm. Như đã đề cập ở chương I, các máy tìm kiếm có một lợi thế khi họ ghi lại quá trình sử dụng của người dùng để có thể hướng đến chủ đề người dùng quan tâm, hay cách nghĩ của họ về các trang web. Mô đun Crawler2: Dựa vào máy tìm kiếm google, yahoo, mô đun lấy về toàn bộ các trang web mà trong nó có liên kết trỏ đến những trang ta cần sinh từ khoá (tôi chỉ quan tâm thẻ a có địa chỉ chính xác như domain của trang web cần phân tích).
Ngoài ra, tôi cũng đề xuất thêm các môđun sinh từ khóa qua phân tích log (đối với các trang web tiếng Anh) và mô đun sinh từ khóa gán qua từ điển(đối với các trang ngắn bằng tiếng Việt).
Các trang web được crawl để chỉ lấy về url của nó từ địa chỉ http://www.dmoz.org/World/Tiếng_Việt/ gồm các mục con như : Địa phương(99), Doanh nghiệp(246)..(Hình 16) Số ở trong ngoặc là số trang web có trong thư mục. Đối với các bài báo (những trang có nội dung tập trung) tôi chỉ lấy một số bài của trang Việt Báo [43], và thử nghiệm và so sánh với các kết quả từ khóa của Việt Báo bằng phương pháp gán từ khóa dựa vào từ điển. Tôi thấy rằng các trang chủ của các trang tiếng Anh được bố trí các phần tốt hơn các trang tiếng Việt vì lượng từ khóa sinh ra đối với tiếng Anh tốt hơn, đa dạng hơn.
Phương pháp sử dụng độ quan trọng của thẻ HTML đã cho thấy ưu điểm, khi tìm thấy các từ khóa vừa mang tính phổ biến vừa mang tính đặc trưng của các trang web. Tuy nhiên dùng từ điển hỗ trợ thì sẽ bất lợi là phải trích xuất đúng được phần văn bản của trang web và thời gian để chạy đối với các trang web có nội dung dài là không nhanh. Phương pháp áp dụng độ quan trọng của thẻ HTML có ưu điểm hơn các phương pháp khác với các từ khóa sinh ra thỏa mãn các tính chất phổ biến cũng như đặc trưng của trang web.
Thời gian để chạy cho một trang với phương pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm:. google, yahoo, altavista ), các kết quả trả về thường lớn. Đối với log chúng tôi sử dụng, số lượng trang web trong nó chỉ chiếm lượng nhỏ của Internet, cho nên đối với một số trang tiếng Anh không xuất hiện trong log, hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng.