4. Phạm vi ứng dụng
2.1.1.3. Quy trình khai phá Text
Quá trình khai phá text trải qua các bước sau
−Thu thập dữ liệu văn bản thuộc miền ứng dụng. Ở bước này có 2 điều cần được lưuý. Thứ nhất, thu thập dữ liệu văn bản thuộc miền ứng dụng mà không phải là tập tất cả các văn bản có thể có của thế giới thực. Ví dụ, bài toán khai phá dữ liệu văn bản của Rich Caruana cùng cộng sự, miền ứng dụng quy định rằng, tập dữ liệu chỉ là tập tất cả các công trình khoa học; còn trong bài toán khai phá dữ liệu văn bản thuộc lĩnh vực y tế và chăm sóc sức khỏe thì chỉ cần quan tâm thu thập các văn bản về y tế và chăm sóc sức khỏe. Thứ hai, yêu cầu của bước thu thập dữ liệu là tập dữ liệu thuộc miền ứng dụng. Cụ thể, tập dữ liệu trang web mà máy tính tìm kiếm của Google thu thập được cho là đại diện cho toàn bộ tập mọi trang web trên Internet. Mô hình sinh trang web, tính ngẫu nhiên của việc thu thập dữliệu là yếu tố cần được quan tâm trong thuật toán thu thập trang web. Tập trang web mà Google thu thập được dù rất đồ sộ, song không phải là toàn bộ mọi trang web có thể.
−Biểu diễn dữ liệu văn bản: sang khuôn dạng phù hợp với bài toán khai phá văn bản. Biểu diễn dữ liệu văn bản càng phù hợp với bài toán khai phá văn bản, thì chất lượng của kết quả khai phá văn bản càng được nâng cao.
−Lựa chọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu: trong hầu hết trường hợp, tập dữ liệu thuộc miền ứng dụng đã thu thập được là rất lớn. Vì vậy, nhiều trường hợp là vượt qua khả năng xử lý vềkhông gian và thời gian, đối với các thuật toán khai phá dữliệu. Do vậy, cần chọn ra từ tập dữ liệu thu thập được 01 tập con để thực hiện bài toán khai phá dữ liệu. Các yếu tố đảm bảo tính đại diện của tập dữ liệu thu thập được cũng được áp dụng trong các giải pháp lựa chọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu.
−Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã được lựa chọn để tìm ra các mẫu, các tri thức: đối với bài toán phân lớp văn bản, mẫu (tri thức)
được tích hợp thành bộ phân lớp kết quả và bộ phân lớp này sẽ được sử dụng vào việc phân lớp đối với các văn bản mới.
−Thực hiện việc khai thác sử dụng mẫu: các tri thức nhận được từ quá trình khai phá văn bản vào thực tiễn hoạt động.