Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp

Một phần của tài liệu Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh (Trang 25)

2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes

Trong bài báo [28]Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này. Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy. Có các từ ở trong văn bản và mục đích là nhận ra một từ có phải thuộc lớp từ khóa( keywords) hay là một từ thông thường(ordinary words). Như các mô hình học máy khác, mô hình này cũng sử dụng tập huấn luyện để học cách sao để nhận ra một từ là từ khóa hay không. Dựa vào những thông tin đã nhận được từ quá trình học để nhận biết, tìm ra các từ khóa từ những văn bản mới đưa vào. Naïve Bayes dựa trên xác suất của các từ để quyết định xem từ đó có thỏa mãn ngưỡng là một từ khóa không.

Trước hết, văn bản cần được được tách ra thành các token sử dụng các kí hiệu như: dấu cách, xuống dòng, tab, dấu chấm, phẩy,... Những chữ không là alpha-beta bị loại bỏ. Tính chỉ số TFxIDF cho các token. Do sử dụng IDF nên các tập dữ liệu phải trong cùng một chủ đề.

Để xây dựng được một mô hình phân lớp để nhận biết được đâu là từ khóa. Tác giả đã sử dụng các thuộc tính gồm: tần số xuất hiện, vị trí của từ trong văn bản.

2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp lớp

Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cách tiếp cận bài toán theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phân lớp cây quyết định để có thể nhận dạng chính xác từ khóa. Phương pháp này có sử dụng các quan hệ ngữ nghĩa nhằm nâng cao chất lượng các từ khóa liên quan. Trích xuất Chuỗi từ vựng là việc đưa ra các quan hệ ngữ nghĩa của câu, văn bản đưa vào. Trong một câu, chuỗi từ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và các quan hệ đồng nghĩa, trái nghĩa, là (is a), có (has a)...Công việc khó khăn nhất đó chính là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet. WordNet được chọn vì từ điển tiếng Anh này có đầy đủ các thông tin về các từ trong tiếng Anh như: danh từ, các từ đồng nghĩa, trái nghĩa... Với các quan hệ ngữ nghĩa này, tác giả xây dựng mô hình để sinh ra chuỗi từ vựng (lexical chain) toàn bộ văn bản tạo thành một chuỗi từ vựng có cấu tạo giống với WordNet. Nhiều câu phức tạp sẽ sinh ra trường hợp nhầm ngữ nghĩa.

17

Sau khi có được các chuỗi ngữ nghĩa của văn bản cần sinh từ khóa. Tác giả chọn thuật toán cây quyết định C4.5 với các thuộc tính là : vị trí xuất hiện đầu tiên, tần số xuất hiện, vị trí xuất hiện cuối cùng, và một thuộc tính lấy từ chuỗi từ vựng đã sinh ra từ văn bản. Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa :10; quan hệ is a: 7. quan hệ has a: 4.

2.2. Các phương pháp trích xut t khóa cho trang web

Một phần của tài liệu Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh (Trang 25)