Rút trích đặc trưng văn bản

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 32 - 33)

4. Phạm vi ứng dụng

2.1.3.1.Rút trích đặc trưng văn bản

Theo Đỗ Phúc [1], cĩ 5 loại tài nguyên chính dùng để nhận diện ý nghĩa của văn bản là phân tích từ vựng, ngữnghĩa, thống kê, cú pháp và phân tích.

− Phân tích từ vựng: Cơng việc chính của tiến trình phân tích là nhận diện những đơn vị ý nghĩa của văn bản. Trong tiếng Anh, giữa hai từ cách nhau bằng khoảng trắng, dấu ngắt câu, dấu ngắt hàng,….Cịn đối với những ngơn ngữ khơng chắc chắn biên giới từ, phương pháp được cho là tổng quát là dùng một cửa sổ trượt để tạo thành những dãy n ký tự liền nhau mà người ta gọi là “n- gram”.

− Phân tích ngữ nghĩa: Mục tiêu của phân tích ngữ nghĩa là tạo những dạng bên ngồi văn bản với ý nghĩa mà nĩ biểu diễn. Các từ khác nhau cĩ thể sử dụng để mơ tả những khái niệm tương tự nhau và việc phân tích hình thái học cĩ thể giúp giải quyết điều này bằng cách đưa các biến thể vềdạng chung…Trong một số ngơn ngữ, đặc biệt là tiếng Anh– cĩ thể làm điều này bằng cách tự động loại bỏ hậu tố. Kỹ thuật này gọi là Stemming, là một kỹ thuật để chuyển đổi các biến tố và nguồn gốc khác nhau của một từ về một nguồn gốc chung, nghĩa là loại bỏ tiền

tố và hậu tố. Mục đích của việc áp dụng kỹ thuật Stemming là để quy về dạng cơ bản nhất của một từ để sử dụng trong tiến trình lấy thơng tin mà cụ thể là việc thay thế một từ nào đĩ trong câu truy vấn chẳng hạn như từsố nhiều thành số ít…, bởi vì các từ ở dạng số ít thường xuất hiện nhiều hơn so với các từ ở dạng số nhiều, và điều nàyảnh hưởng đến sự sắp xếp các tài liệu trảvề.

− Phân tích thống kê: Phân tích thống kê tần số sử dụng thuật ngữ đã được kiểm chứng là hữu ích. Phương pháp đơn giản nhất là dựa trên tổng số lần xuất hiện của mỗi thuật ngữ (từ gốc, n-gram, cụm từ…) trong kho văn bản cĩ chủ đề, cơng việc thường thực hiện là tìm những cụm từ sử dụng trong những ngữ cảnh khác nhau sẽ đại diện cho những khái niệm khác nhau. Việc phân tích các cụm từ xuất hiện đồng thời cĩ thểgiúp giải quyết nghĩa của từnhập nhằng nghĩa.

− Phân tích cú pháp: Phân tích từ loại ở tất cả chủ đề và tốc độ xử lý những kho văn bản lớn đang trở thành hiện thực. Phân tích từ giúp phán đốn những từ khơng rõ nghĩa và các thành ngữ cú pháp như nhau. Qua đĩ cung cấp thêm thơng tin cho phân ích thống kê.

− Phân tích sử dụng: Cách thức sử dụng tài liệu cĩ thể cĩ những gợi ý giá trị về bản thân tài liệu đĩ. Người ta cĩ thể xác định được bốn loại thĩi quen của người dùng và từ đĩ cĩ thể phân tích sử dụng và kiểm tra , duy trì, tham khảo và đánh giá.

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 32 - 33)