PHẦN KẾT LUẬN

Tầm quan trọng của vấn đề lấy tin tự động trên Internet

Với sự phát triển nhanh chóng của Internet như ngày nay, thì mỗi ngày, tuần, tháng, quý, năm... mỗi con người chúng ta phải xử lý hàng trăm, triệu, tỷ... thông tin, dữ liệu khác nhau, điều này có nghĩa là chúng ta đã gặp phải những rắc rối không mong muốn trong thời đại công nghệ số này. Vì vậy, bài toán tìm kiếm tài liệu Web và phân cụm tài liệu là một bài toán phức tạp và được ứng dụng trong thực tế, đặc biệt trong các ứng dụng Web. Trên cơ sở những dữ liệu thu thập được từ internet thì chúng ta cần phải tiến hành phân loại, nhóm phân cụm thành các cụm khác nhau theo các chủ đề khác nhau từ đó phục vụ cho việc phân tích dữ liệu và dự báo kinh tế [1].

Hiện nay, có nhiều phương pháp tìm kiếm khác nhau, nhưng nhìn chung là các cách tiếp cận đều dựa vào các trọng số trang Web (Chỉ số quan trọng của trang trong tập kết quả), như: Page Bank, HITS...Tức là các trang này chủ yếu là dựa vào các liên kết để xác định trọng số [16].

Mặt khác, chúng ta có thể dựa vào nội dung các tài liệu để xác định trọng số, nếu các tài liệu gần nhau về nội dung thì gán cho chúng một trọng số và khi đó chúng thuộc cùng một nhóm.

Các vấn đề đã được tìm hiểu trong luận văn

Luận văn đã nêu vấn đề cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm và đã cài đặt thử nghiệm trên các bộ cơ sở dữ liệu, cho kết quả bước đầu khá khả quan.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hướng nghiên cứu tiếp theo

Tiếp tục nghiên cứu các kỹ thuật phân cụm dữ liệu, trong đó nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng được các yêu cầu của bài toán phân cụm tài liệu Web.

Đề xuất ra giải pháp xây dựng quy trình công nghệ và phát triển hệ thống phần mềm thu thập, đánh giá và phân cụm thông tin tự động trên Internet phục vụ cho việc nghiên cứu, học tập và giảng dạy ngành Hệ thống thông tin Kinh tế, và phục vụ cho việc phân tích, tổng hợp, xử lý dữ liệu và dự báo phát triển kinh tế xã hội của khu vực trung du và miền núi phía Bắc.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Phân cụm dữ liệu phân cấp

Phân cụm dữ liệu dựa trên lướ