Rút trích đặc trưng văn bản

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 32 - 33)

4. Phạm vi ứng dụng

2.1.3.1.Rút trích đặc trưng văn bản

Theo Đỗ Phúc [1], có 5 loại tài nguyên chính dùng để nhận diện ý nghĩa của văn bản là phân tích từ vựng, ngữnghĩa, thống kê, cú pháp và phân tích.

− Phân tích từ vựng: Công việc chính của tiến trình phân tích là nhận diện những đơn vị ý nghĩa của văn bản. Trong tiếng Anh, giữa hai từ cách nhau bằng khoảng trắng, dấu ngắt câu, dấu ngắt hàng,….Còn đối với những ngôn ngữ không chắc chắn biên giới từ, phương pháp được cho là tổng quát là dùng một cửa sổ trượt để tạo thành những dãy n ký tự liền nhau mà người ta gọi là “n- gram”.

− Phân tích ngữ nghĩa: Mục tiêu của phân tích ngữ nghĩa là tạo những dạng bên ngoài văn bản với ý nghĩa mà nó biểu diễn. Các từ khác nhau có thể sử dụng để mô tả những khái niệm tương tự nhau và việc phân tích hình thái học có thể giúp giải quyết điều này bằng cách đưa các biến thể vềdạng chung…Trong một số ngôn ngữ, đặc biệt là tiếng Anh– có thể làm điều này bằng cách tự động loại bỏ hậu tố. Kỹ thuật này gọi là Stemming, là một kỹ thuật để chuyển đổi các biến tố và nguồn gốc khác nhau của một từ về một nguồn gốc chung, nghĩa là loại bỏ tiền

tố và hậu tố. Mục đích của việc áp dụng kỹ thuật Stemming là để quy về dạng cơ bản nhất của một từ để sử dụng trong tiến trình lấy thông tin mà cụ thể là việc thay thế một từ nào đó trong câu truy vấn chẳng hạn như từsố nhiều thành số ít…, bởi vì các từ ở dạng số ít thường xuất hiện nhiều hơn so với các từ ở dạng số nhiều, và điều nàyảnh hưởng đến sự sắp xếp các tài liệu trảvề.

− Phân tích thống kê: Phân tích thống kê tần số sử dụng thuật ngữ đã được kiểm chứng là hữu ích. Phương pháp đơn giản nhất là dựa trên tổng số lần xuất hiện của mỗi thuật ngữ (từ gốc, n-gram, cụm từ…) trong kho văn bản có chủ đề, công việc thường thực hiện là tìm những cụm từ sử dụng trong những ngữ cảnh khác nhau sẽ đại diện cho những khái niệm khác nhau. Việc phân tích các cụm từ xuất hiện đồng thời có thểgiúp giải quyết nghĩa của từnhập nhằng nghĩa.

− Phân tích cú pháp: Phân tích từ loại ở tất cả chủ đề và tốc độ xử lý những kho văn bản lớn đang trở thành hiện thực. Phân tích từ giúp phán đoán những từ không rõ nghĩa và các thành ngữ cú pháp như nhau. Qua đó cung cấp thêm thông tin cho phân ích thống kê.

− Phân tích sử dụng: Cách thức sử dụng tài liệu có thể có những gợi ý giá trị về bản thân tài liệu đó. Người ta có thể xác định được bốn loại thói quen của người dùng và từ đó có thể phân tích sử dụng và kiểm tra , duy trì, tham khảo và đánh giá.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 32 - 33)