Một số hướng nghiên cứu của khai phá dữ liệu hiện nay

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 25)

tích hợp, xử lý dữ liệu bị nhiễu không đầy đủ và tính có ích của tri thức được khám phá. OLAM cũng hỗ trợ song song hoá và phân tán quá trình khai phá dữ liệu.

- Khai phá Text: là quá trình trích chọn tri thức mới, có giá trị và tác động được tiềm ẩn trong các tài liệu để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn cho các chỉ dẫn về sau. Các tài liệu này là các tài nguyên thông tin quan trọng, và các phương pháp khai phá dữ liệu có thể trợ giúp trong việc lấy văn bản hữu ích từ tập hợp rất lớn các tài liệu (như web chẳng hạn). Mỗi tài liệu có thể được xem như là dãy các từ và dấu chấm câu. Các nhiệm vụ điển hình về khai thác các cơ sở dữ liệu văn bản là phân loại tài liệu thành các loại đã xác định truớc, phân các tài liệu giống nhau thành các nhóm, tìm các tài liệu thỏa mãn một câu truy vấn. Ngoài ra còn có: trích chọn thuộc tính, đặc điểm (Feature extraction)- phát hiện/lưu trữ từ khóa, cụm từ mang nghĩa (feature), biểu diễn văn bản theo các thành phần đó hoặc sử dụng chúng trong cơ sở dữ liệu Text/Web; phân tích văn bản để phát hiện sự xuất hiện (có tần số) các thuộc tính chưa định trước (xác định chúng đồng thời với phân tích nội dung) hoặc thuộc tính được định trước (như tên người, công việc...); Tóm tắt văn bản (Abstract), Xây dựng kiến trúc (Ontology building), dẫn đường cho văn bản

- Khai phá Web: là quá trình trích chọn thành phần có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới Web. Do kích thước quá lớn – hơn 11,5 tỷ trang Web nên không thể tổ chức kho dữ liệu. Hơn nữa, các trang Web có nội dung phức tạp, nhiều kiểu đa dạng như văn bản, đa phương tiện, hình ảnh … và luôn thay đổi về nội dung cập nhật, thậm chí nhiều trang biến mất. Ngoài ra, phạm vi phục vụ quá rộng lớn, không định hướng tập trung, chỉ một phần nhỏ là hữu ích cho người dùng. Vì vậy, khai phá Web tập trung vào những vấn đề sau:

o Khai thác nội dung được sử dụng để kiểm tra dữ liệu thu thập được qua các phần mềm dò tìm trên internet (search engine) và các phần mềm liệt kê nội dung trên internet (web spider).

o Khai thác cấu trúc được sử dụng để kiểm tra dữ liệu liên quan tới cấu trúc của một trang web nhất định.

o Khai thác quá trình được sử dụng để kiểm tra dữ liệu liên quan tới trình duyệt (web browser) của các người sử dụng hay người truy cập trang web cũng như các dữ liệu thu được trong quá trình người sử dụng thực hiện các chuyển giao trên internet như thời gian, ngôn ngữ,...

Các thông tin thu được từ khai phá dữ liệu qua internet được đánh giá, có thể vói sự hỗ trợ của các ứng dụng phần mềm đồ hoạ, bằng cách sử dụng các thông số truyền thống đã nêu ở trên bao gồm liên đới, dãy phân tích, phân loại, tập hợp, và dự báo.

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 25)

Tải bản đầy đủ (PDF)

(129 trang)