Trích xuất từ khĩa sử dụng lexical chain (chuỗi từ vựng) và phân lớp

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 25 - 26)

2.1.3.1. Trích xuất từ khĩa sử dụng phân lớp Nạve Bayes

Trong bài báo [28]Yasin Uzun sử dụng phân lớp Nạve Bayes để áp dụng vào bài tốn này. Ơng cho rằng bài tốn này cĩ thể coi là một vấn đề trong học máy. Cĩ các từ ở trong văn bản và mục đích là nhận ra một từ cĩ phải thuộc lớp từ khĩa( keywords) hay là một từ thơng thường(ordinary words). Như các mơ hình học máy khác, mơ hình này cũng sử dụng tập huấn luyện để học cách sao để nhận ra một từ là từ khĩa hay khơng. Dựa vào những thơng tin đã nhận được từ quá trình học để nhận biết, tìm ra các từ khĩa từ những văn bản mới đưa vào. Nạve Bayes dựa trên xác suất của các từ để quyết định xem từ đĩ cĩ thỏa mãn ngưỡng là một từ khĩa khơng.

Trước hết, văn bản cần được được tách ra thành các token sử dụng các kí hiệu như: dấu cách, xuống dịng, tab, dấu chấm, phẩy,... Những chữ khơng là alpha-beta bị loại bỏ. Tính chỉ số TFxIDF cho các token. Do sử dụng IDF nên các tập dữ liệu phải trong cùng một chủ đề.

Để xây dựng được một mơ hình phân lớp để nhận biết được đâu là từ khĩa. Tác giả đã sử dụng các thuộc tính gồm: tần số xuất hiện, vị trí của từ trong văn bản.

2.1.3.2. Trích xuất từ khĩa sử dụng lexical chain (chuỗi từ vựng) và phân lớp lớp

Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cách tiếp cận bài tốn theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phân lớp cây quyết định để cĩ thể nhận dạng chính xác từ khĩa. Phương pháp này cĩ sử dụng các quan hệ ngữ nghĩa nhằm nâng cao chất lượng các từ khĩa liên quan. Trích xuất Chuỗi từ vựng là việc đưa ra các quan hệ ngữ nghĩa của câu, văn bản đưa vào. Trong một câu, chuỗi từ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và các quan hệ đồng nghĩa, trái nghĩa, là (is a), cĩ (has a)...Cơng việc khĩ khăn nhất đĩ chính là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet. WordNet được chọn vì từ điển tiếng Anh này cĩ đầy đủ các thơng tin về các từ trong tiếng Anh như: danh từ, các từ đồng nghĩa, trái nghĩa... Với các quan hệ ngữ nghĩa này, tác giả xây dựng mơ hình để sinh ra chuỗi từ vựng (lexical chain) tồn bộ văn bản tạo thành một chuỗi từ vựng cĩ cấu tạo giống với WordNet. Nhiều câu phức tạp sẽ sinh ra trường hợp nhầm ngữ nghĩa.

17

Sau khi cĩ được các chuỗi ngữ nghĩa của văn bản cần sinh từ khĩa. Tác giả chọn thuật tốn cây quyết định C4.5 với các thuộc tính là : vị trí xuất hiện đầu tiên, tần số xuất hiện, vị trí xuất hiện cuối cùng, và một thuộc tính lấy từ chuỗi từ vựng đã sinh ra từ văn bản. Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa :10; quan hệ is a: 7. quan hệ has a: 4.

2.2. Các phương pháp trích xut t khĩa cho trang web

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(59 trang)