Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 56 - 57)

2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web:

2.3.2.Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên

(Natural Language Processing Text Filtering) - NLP

Phƣơng pháp NLP bao gồm những thành phần sau:

 Tự động trích trọn từ tập sao lục các thuật ngữ quan trọng (từ đơn, cụm từ, từ nhiều nghĩa, kiểu văn bản, v.v.).

 Xây dựng một tập từ điển các từ đồng nghĩa, trái nghĩa (thesauri/semantic).

 Kỹ thuật phân tích ngơn ngữ “khơng sâu”, đảm bảo phân tích thuận tiện nhiều từ đa nghĩa và các kiểu text, bao gồm:

 Đơn vị ngôn ngữ (Tokenisation).

 Phân tích hình thái học (morphological) và tập danh mục tìm kiếm (lemmatization).

 Nhận dạng tên thực thể.

 Phân đoạn một cụm từ thành các loại từ cụ thể (ví dụ: cụm danh từ.v.v…).

 Xác định những sắp xếp về mặt ngữ nghĩa khác của từ.

 Giải tích hàm (functional analysis) nhƣ là chú giải về mặt ngữ pháp (ví dụ: chủ ngữ, bổ ngữ.v.v.).

Kết quả của việc phân tích ngơn ngữ học “không sâu” sẽ cung cấp một căn cứ đƣợc dùng trong tiến trình quyết định lọc nội dung, nó sẽ là cơ sở chung cho các phƣơng pháp học. Trong phƣơng pháp học mơ hình hóa, một q trình quy nạp chung tự động xây dựng một “ngƣời phân loại” (classifier) bằng cách “học” các đặc trƣng của danh mục quan tâm từ một tập các hạng mục đã phân loại trƣớc đó. Trong hầu hết các phƣơng pháp đƣợc ứng dụng và thực hiện trƣớc đó cho nhiệm vụ phân loại và lọc text, tài liệu đƣợc coi nhƣ là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

một “túi” từ khơng có cấu trúc. Để mở rộng căn cứ xác thực cho phƣơng pháp quyết định bao gồm các kết quả đã phân tích, việc xử lý ngơn ngữ “không sâu” nên dựa trên việc cung cấp một căn cứ tin cậy và chắc chắn của ký tự và nội dung tài liệu.

Một vấn đề quan trọng cuối cùng đó là cấu hình bộ lọc nội dung khơng nên để cố định và ở dạng tĩnh, hay nói cách khác là nó nên đƣợc làm cho thích ứng với sự thay đổi tự nhiên của các ngôn ngữ sử dụng và phải đấu tranh với những thủ đoạn ngày càng phát triển của những ngƣời lập web (muốn tăng khả năng vƣợt qua phần mềm lọc). Sự thích ứng này cịn thể hiện ở chỗ những phƣơng pháp đó có thể đƣợc ứng dụng lại trên các lĩnh vực khác.

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 56 - 57)