Kiến nghị hướng phát triển:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 103 - 104)

Với những hạn chế trên, định hướng cho sự phát triển đề tài như sau:

– Hồn thiện mơ hình lọc web, bổ sung những điểm cịn hạn chế để cĩ một bộ lọc hiện đại, đủ sức trang bị cho các tường lửa lớn hơn chẳng hạn như trên các ISP.

– Nghiên cứu thêm thuật tốn lọc hình ảnh, kiểm sốt download, để hồn thiện một bộ lọc.

– Tăng cường thêm các Hueristic để tăng tốc độ làm việc của thuật tốn nhằm làm giảm thời gian xử lý, tránh ùn tắc mạng do “proxy” gây ra. Trong luận văn này người viết đã thêm hai danh sách URL đã xác định: một danh sách URL cho phép truy cập và danh sách cịn lại là khơng cho truy cập, nhờ vậy hạn chế lưu lượng đi qua bộ xử lý phân loại web.

– Ngồi ra, một nguyên nhân làm cho thuật tốn chậm đi là do thuật tốn đã dùng tồn bộ tập huấn luyện để tính tốn. Do số lượng phần tử trong tập huấn luyện nhiều và thường được bổ sung nên thời gian tính tốn chậm dần. Hướng giải quyết nhằm làm cân đối thời gian tính tốn để đi đến quyết định cũng như tính ngưỡng giới hạn cho hệ thống là trang bị thêm bộ xử lý tập huấn luyện nhằm chọn ra một

tập ngưỡng (nhỏ hơn tập huấn luyện) để việc so sánh và tính tốn diễn ra nhanh hơn. Hướng đề xuất này là dùng một thuật tốn máy học (chẳng hạn như Bayes) trang bị cho hệ thống cĩ vai trị “học” trên tập dữ liệu huấn luyện để đưa ra tập ngưỡng.

– Tăng thêm tốc độ làm việc của hệ thống bằng cách cải tạo thành bộ lọc web phân tán trên mạng. (Chẳng hạn như áp dụng kỹ thuật mobile agent tận dụng xử lý phân tán). Đa dạng hĩa lĩnh vực lọc web (hiện tại chỉ nghiên cứu một lĩnh vực).

– Cải tiến thuật tốn, xây dựng bộ lọc tiếng Việt: bộ lọc tiếng Việt cần một số yêu cầu sau: bộ stopword tiếng Việt, hàm nhận biết mã tiếng Việt, bộ chuyển đổi về mã Unicode (hay một chuẩn nào đĩ), tập huấn luyện tiếng Việt, một thành phần rất quan trọng đĩ là ngữ nghĩa và cách dùng từ trong văn bản tiếng Việt, …

– Trang bị thêm bộ phận cảm ngữ cảnh cho việc nhận dạng loại văn bản (đâu là trang web sex cần chặn và đâu là trang web giáo dục giới tính cĩ thể cho phép xem).

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 103 - 104)