6. Bố cục của luận văn
1.3.2. Các bƣớc của quá trình khai phá dữ liệu web
Quá trình khai phá dữ liệu web thƣờng trải qua các bƣớc nhƣ lựa chọn dữ liệu, tiền xử lý dữ liệu, biểu diễn văn bản và trích rút đặc trƣng. Chúng ta có thể hiểu rằng khai phá dữ liệu web nhƣ là việc trích chọn ra các thành phần đƣợc quan tâm hay đƣợc đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World Wide Web. Một cách trực quan có thể quan niệm khai phá dữ liệu web là sự kết hợp giữa khai phá dữ liệu, xử lý ngôn ngữ tự nhiên và công nghệ World Wide Web [9].
a. Lựa chọn dữ liệu
Về cơ bản, văn bản cục bộ đƣợc định dạng tích hợp thành các tài liệu theo mong muốn để khai phá và phân phối trong nhiều dịch vụ web bằng việc sử dụng kỹ thuật truy xuất thông tin.
b. Tiền xử lý dữ liệu
Để có một kết quả khai phá dữ liệu tốt chúng ta cần tiến hành tiền xử lý dữ liệu, để có đƣợc dữ liệu rõ ràng, chính xác, xoá bỏ dữ liệu hỗn độn và dƣ thừa. Sau bƣớc tiền xử lý dữ liệu, tập dữ liệu đạt đƣợc thƣờng có những
đặc điểm nhƣ sau:
- Dữ liệu thống nhất.
- Các dữ liệu không liên quan, nhiễu và dữ liệu rỗng đƣợc làm sạch. - Dữ liệu không bị mất mát.
- Dữ liệu không bị trùng lặp.
- Giảm bớt số chiều và làm tăng hiệu quả việc phát hiện tri thức bằng việc chuyển đổi, quy nạp, cƣỡng bức dữ liệu.
- Các thuộc tính không liên quan đƣợc làm sạch để giảm bớt số chiều của dữ liệu.
c. Biểu diễn văn bản
Khai phá văn bản web là khai phá các tập tài liệu HTML. Do đó chúng ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho quá trình xử lý. Mô hình TF-IDF thƣờng đƣợc sử dụng để vector hoá dữ liệu. Tuy nhiên việc biểu diễn sử dụng mô hình TF-IDF sẽ dẫn đến số chiều vector khá lớn.
d. Trích rút đặc trưng
Trích rút các đặc trƣng là một phƣơng pháp đƣợc sử dụng để giải quyết số chiều vector đặc trƣng lớn thu đƣợc từ khâu khai phá văn bản. Sau khi tập hợp, lựa chọn và trích ra tập văn bản hình thành nên các đặc trƣng cơ bản, nó sẽ là cơ sở để khai phá dữ liệu. Từ đó ta có thể thực hiện trích, phân loại, phân cụm, phân tích và dự đoán (xem Hình 1.2. [9])