II. Cơ sở lý thuyết
4. Một số công cụ phân tích văn bản tiếng Anh
Trong bài thực tập này em xin giới thiệu hai công cụ sử dụng cho TextAnalys và WebAnalys. Cả hai công cụ này đều được tải từ địa chỉ http:// www.megaputer.com. Sau đây em xin được giới thiệu về từng công cụ.
TextAnalyst 2.0 là công cụ dùng để tự động xử lý văn bản tiếng Anh theo phương pháp các mạng nơ-ron, nhưng tạo ra các cấu trúc ngữ nghĩa như một sản phẩm cuối. Thuật toán áp dụng cho TextAnalyst 2.0 gồm ba bước: bước tiền xử lý, bước phân tích thống kê và đưa ra kết quả.
Bước tiền xử lý bao gồm việc loại bỏ các phụ từ và việc nhận dạng các từ gốc. Các phụ từ thường không mang lại ý nghĩa khi phân tích ngữ nghĩa. Trong giai đoạn tiền xử lý, các từ này sẽ bị loại bỏ khỏi văn bản nhằm giảm khối lượng văn bản cần xử lý. Ví dụ của phụ từ là các giới từ như: a, an, the. Khi phân câu, các từ này thường
không mang lại giá trị về mặt thuật ngữ hay ngữ nghĩa, thế nhưng các từ này có xác suất xuất hiện rát lớn trong các văn bản tiếng Anh. Việc nhận dạng các từ gốc rất quan trọng. Trong tiếng anh, một dang từ có thể có nhiều biết thể, ví dụ với từ use có các biến thể: use, using, user, used, useful, useless…Vấn đề là hệ thống cần nhận ra dạng biết thể của từ để tìm ra dạng nguyên thể của từ.
Sau khi bước tiền xử lý hoàn tất, mạng nơ-ron sẽ nắm lấy tất cả các từ quan trọng cũng như tần xuất xuất hiện của mỗi từ, độ liên kết giữa các từ và trọng số liên kết. Ví dụ, khi xem xét một tài liệu, TextAnalyst nhận thấy từ database xuất hiện nhiều nhất. Khi phân tích các từ có liên quan đến từ database như thuộc cùng một câu, thuộc cùng một đoạn, TextAnalyst nhận thấy từ sql server xuất hiện nhiều trong các câu hoặc đoạn văn có xuất hiện từ database. Như vậy khả năng tài liệu đề cập đến cơ sở dữ liệu sql server là rất lớn. TextAnalyst cố gắng phân tích và ghi lại các thông tin liên kết này.
Từ kết quả phân tích thống kê, TextAnalyst đưa ra những câu văn được xem như quan trọng nhất trong cả văn bản.
Nhờ TextAnalyst, chúng ta có thể tiết kiệm đáng kể thời gian trong khi chọn ra các văn bản chứa các thông tin cần thiết. Thay vì các phương pháp phân loại cổ điển là đọc hết văn bản để đánh giá nội dung của văn bản đó thì nay ta chỉ việc đọc các thông in quan trọng được trích ra từ văn bản thông qua TextAnalyst.
Ví dụ, khi em thử dùng TextAnalyst để phân tích một tài liệu (chứa trong file “KDT1.txt”) về TextMining, công cụ này đã đưa ra kết quả như hình 8.
Trên cây phân cấp có thể nhìn thấy các thuật ngữ được tách ra từ tài liêu. Từ khoá có mức ưu tiên cao nhất (xác suất xuất hiện lớn nhất) là “discovery”. Liên hệ mật thiết với “discovery” lần lượt (theo thứ tự ưu tiên) là “knowledge discovery”, “database”, “KDD”, “Text”, “Exploration”, “Collection”, và “Keywork”.
Trên cửa sổ Summarization xuất hiện đoạn văn bản “We show how this keyword- frequency approach supports a range of KDD operations, providing a suitable foundation for knowledge discovery and exploration for collections of unstructured text.” Đây là đoạn tổng kết qua phân tích của công cụ. Nó là đoạn văn bản được hệ thống cho là quan trọng nhất trong toàn bộ tài liệu.
Tương tự như TextAnalyst, WebAnalyst cũng được dùng để phân tích nội dung của văn bản tiếng Anh. Nhưng điểm khác biệt là công cụ này được gắn ngay vào Internet Explorer của Microsoft chạy trên hệ điều hành Windows. Khi ta vào bất cứ một trang web nào thì công cụ này tự động chạy ở chế độ nền và phân tích toàn bộ trang web đó và tóm lượng các thông tin được xem là quan trọng nhất.
Ví dụ, khi em cài đặt bộ “TextAnalyst for IE”, kích hoạt phần công cụ TextAnalyst đươc gắn vào trình duyệt IE của Microsoft, rồi vào thử trang web tại địa chỉ
http://citeseer.nj.nec.com/content/31361/141654. Đây là tài liệu có nội dung về “Text
categorization”. Khi đó, trên cửa sổ summarization của TextAnalyst có một đoạn
văn bản “Text categorization with support vector machines: learning with many relevant feature”. Đây là nội dung chính bao quát toàn bộ tài liệu này.
Sau khi dùng thử hai công cụ trên, em có chung một nhận xét là chúng làm việc khá tốt. Cả hai đều giải quyết một bài toán chung là “Text Summarization”.