Phương pháp xử lý nội dung website

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 55 - 56)

4. Phạm vi ứng dụng

2.4.3. Phương pháp xử lý nội dung website

Như đã trình bàyởtrên, nội dung website đang được đềcập là tiếng Việt hay tiếng Anh. Dưới đây sẽ đềxuất các phương pháp xử lý nội dung website.

– Cách thứ nhất là phân chia nội dung được thành tiếng Anh và tiếng Việt, sau đĩ tiến hành phân loại nội dung tiếng Anh và tiếng Việt riêng. Tất nhiên, cĩ thể cĩ trường hợp trong một nội dung cĩ cả tiếng Việt và tiếng Anh nhưng tỷ lệ này khơng nhiều.

– Cách thứ hai là xây dựng một bộ phân loại chung cho cả tiếng Anh và tiếng Việt. Cách thứ hai đơn giản hơn nhưng cĩ thể gặp vấn đề khi lựa chọn tham số k để tách các k-gram.

– Nếu sử dụng cách thứ nhất thì xuất hiện một vấn đề cần giải quyết là phân biệt nội dung tiếng Anh và tiếng Việt. Mặc dù cĩ những giải pháp phức tạp hơn được đề xuất cho vấn đề này, ở đây đề xuất sử dụng một giải pháp rất đơn giản. Khi lựa chọn đặc trưng, các đặc trưng được đánh dấu riêng tiếng Việt hoặc tiếng Anh và lưu vào bảng băm. Khi một nội dung mới xuất hiện, 20 đặc trưng đầu tiên của nội dung sẽ được băm vào bảng tiếng Việt và tiếng Anh. Nếu số lượng băm trúng trong bảng tiếng Việt lớn hơn bảng tiếng Anh thì nội dung được coi là nội

dung tiếng Việt và ngược lại. Tuy nhiên, đối với những nội dung sử dụng cả tiếng Việt và tiếng Anh việc kết luận nội dung thuộc một trong hai ngơn ngữ duy nhất cĩ thể ảnh hưởng tới quá trình phân loại tiếp theo.

Sau khi phân biệt được nội dung tiếng Anh thì sẽ được lọc riêng. Hiệu quả phân loại chung sau đĩ được lấy bằng trung bình cộng của phân loại cho nội dung tiếng Việt và nội dung tiếng Anh. Để tăng độ chính xác trong quá trình phân tích nội dung, cĩ thể chia nhỏ nội dung thành từng câu đơn thể nhằm tạo tiền đề cho việc tách từ tiếng Việt mang lại độ chính xác cao nhất.

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 55 - 56)

Tải bản đầy đủ (PDF)

(83 trang)