1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

91 637 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • MỤC LỤC

  • DANH MỤC CHỮ VIẾT TẮT

  • DANH MỤC HÌNH VẼ, BẢNG BIỂU

  • MỞ ĐẦU

  • CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN CỤM TÀI LIỆU WEB

  • 1.1 Khai phá dữ liệu

  • 1.1.1 Khai phá dữ liệu là gì?

  • 1.1.2 Các hướng tiếp cận và các kỹ thuật trong khai phá dữ liệu

  • 1.1.3 Ứng dụng của khai phá dữ liệu

  • 1.2 Dữ liệu Fulltext và Hypertext

  • 1.2.1 Fulltext

  • 1.2.2 Hypertext

  • 1.3 Khai phá dữ liệu Web

  • 1.3.1 Nhu cầu

  • 1.3.2 Đặc điểm

  • 1.3.3 Các hướng tiếp cận

  • 1.4 Bài toán phân cụm tài liệu Web

  • 1.4.1 Giới thiệu bài toán

  • 1.4.2 Tại sao đặt ra bài toán phân cụm tài liệu Web

  • 1.4.3 Đặc điểm của bài toán phân cụm tài liệu Web

  • 1.4.4 Các yêu cầu đối vơi bài toán phân cụm tài liệu Web

  • 1.4.5 Một số đại lượng đo độ chính xác cho bài toán

  • 1.5 Những khó khăn trong Phân cụm tiếng Việt

  • 1.5.1 Vấn đề tách từ tiếng Việt

  • 1.5.2 Vấn đề bảng mã tiếng Việt

  • 1.5.3 Các khó khăn khác

  • 1.6 Kết luận chương 1

  • CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU

  • 2.1 Mô hình không gian vector

  • 2.1.1 Một số khái niệm

  • 2.1.2 Mô hình tần số

  • 2.1.3 Mô hình Boolean

  • 2.1.4 Tính chất của vector

  • 2.2 Tách từ trong tiếng Việt

  • 2.2.1 Một số đặc điểm chính về từ tiếng Việt

  • 2.2.2 Tách từ tự động tiếng Việt

  • 2.2.3 Các phương pháp tách từ tiếng Việt

  • 1. Mô tả

  • 2. Áp dụng tách từ tiếng Việt

  • 2.3.1 Đo độ tương tự

  • 2.4 Tổng kết chương 2

  • CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM TÀI LIỆU

  • 3.1 Giới thiệu

  • 3.2 Phân hoạch Top-down

  • 3.2.1 Thuật toán K-means với gán “cứng”

  • 3.2.2 Thuật toán K-means với gán “mềm”

  • 3.2.3 Độ phức tạp tính toán

  • 3.3 Phân cụm dựa trên tính mới của tài liệu

  • 3.3.1 Mô tả

  • 3.3.2 Độ đo tương tự

  • 3.3.3 Thuật toán phân cụm dựa trên thuật toán K-Means mở rộng

  • 3.3.4 Đánh giá

  • 3.4 Phân hoạch Bottom-up

  • 3.4.1 Thuật toán phân cụm tích tụ (AHC)

  • 3.4.2 Độ phức tạp tính toán

  • 3.5 Kết hợp giữa bottom-up và top-down

  • 3.5.1 Mô tả

  • 3.5.2 Thuật toán buckshot

  • 3.7 Tổng kết chương 3

  • CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VỚI PHÂN CỤM TIẾNG VIỆT

  • 4.1 Môi trường thực nghiệm

  • 4.2 Dữ liệu

  • 4.3 Kết quả thực nghiệm

  • 4.3.1 So sánh các thuật toán phân cụm

  • 4.3.2 Phân cụm sử dụng tách từ tiếng Việt

  • 4.4 Kết luận chương 4

  • CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN

  • 5.1 Tổng kết

  • 5.2 Hướng phát triển

  • TÀI LIỆU THAM KHÁO

Nội dung

Ngày đăng: 25/03/2015, 10:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN