Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
2,7 MB
Nội dung
[...]... toán phân loại đa lớp 4.2 Bài toán phân loại tài liệu tự động Từ khái niệm phân loại tài liệu theo 4.1.1 ta có khái niệm đơn giản về bài toán phân loại tài liệu tự động: Phân loại văn tài liệu tự động là việc gán các nhãn phân loại lên một tài liệu mới một cách tự động dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện” Nhiều giải thuật, phương pháp phân. .. phân - Binary case TC: là trường hợp phân loại mà tài liệu phân loại chỉ thuộc về một trong 2 lớp có sẵn Φ : →{ , } (4.2) 33 Phân loại đa lớp - Multi class case TC: là trường hợp phân loại mà tài liệu d j chỉ thuộc về duy nhất một lớp ci nào đó Φ : → (4.3) Phân loại thuộc về nhiều nhãn - Multi label case TC: là trường hợp phân loại mà tài liệu dj có thể thuộc về nhiều lớp tài liệu ci Φ : →2 (4.4) Tài. .. ngưỡng Và như vậy các loại phân loại tài liệu ở trên có thể được mô tả như sau: 34 Φ = ( )> ế Φ ế ượ ạ Φ max {Φ ( )= Φ ( )={ ∈ ,Φ (4.6) ( ), ∀ ( )> ,∀ ∈ ∈ } (4.7) } (4.8) Mục tiêu luận văn đề ra giải thuật phân loại được mô hình theo thuyết vạn vật hấp dẫn Mối liên hệ của tài liệu mới đưa vào và kiến trúc phân loại được xác định dựa theo việc lựa vị trí cân bằng bền cho chất điểm (theo mục 2.9) Luận văn... tài liệu mới đó thuộc về lớp nào trong số các lớp có sẵn Do vậy tài liệu mới cần được trích chọn những đặc trưng cần thiết và phù hợp với hệ thống phân loại Trong chương này luận văn trình bày các khái niệm cơ bản, các tiến trình xử lý của một hệ thống phân loại 4.1 Khái niệm phân loại 4.1.1 Khái niệm Khái niệm phân loại tài liệu đơn giản như sau: Phân loại văn tài liệu là việc gán các nhãn phân loại. .. liệu ci Φ : →2 (4.4) Tài liệu Phân loại nhị phân Yes Phân loại đa lớp No C1 Ci Phân loại đa nhãn Cj C1 Ci Cj Hình 4.1: Các loại phân loại tài liệu Ví dụ: một tài liệu nói về môn thể thao ”đi bộ” có thể là nhánh con của lớp ”điền kinh” thuộc nhánh lớn ”oplimpic” cũng có thể là nhánh con của lớp ”các môn phục hồi chức năng” thuộc nhánh lớn ”y học” Trong hai hướng tiếp cận phân loại multi-class và multi... cập đến bài toán phân loại văn bản, trình bày những khái niệm căn bản về phân loại văn bản, tiền xử lý, cách thức trích chọn đặc trưng, biểu diễn tài liệu, … Để chỉ ra được mức độ hiệu quả, thử nghiệm độ chính xác lý thuyết đề xuất, chương 5 đề cập đến các bước mô hình hóa lý thuyết đề xuất cho bài toán phân loại tài liệu Quá trình mô tả sẽ được thử nghiệm bằng một modul phân loại tài liệu Trong khuôn... lên một tài liệu mới dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện”[24] Cho: D: không gian các tài liệu mẫu D(d1, d2, ,ds) C: tập đã định nghĩa các loại tài liệu C(c1, c2, c|C|) Với cặp (di, cj) ∈ DxC nhận giá trị Boolean (T,F), với giá trị T ứng với trường hợp tài liệu di thuộc về nhóm tài liệu cj và với giá trị F ứng với trường hợp tài liệu di... về của một tài liệu mới trong kiến trúc phân cấp của luận văn 24 CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY) Xây dựng kiến trúc phục vụ phân loại là một trong các bước đầu tiên của bài toán phân loại tài liệu tự động Hầu hết các kiến trúc phân loại đang sử dụng đều được xây dựng thủ công do nhóm các chuyên gia thực hiện Kiến trúc phân loại này trên thực tế được sử dụng với khái niệm cây phân loại hay taxonomy... thành định luật vạn vật hấp dẫn hoàn chỉnh Định luật vạn vật hấp dẫn Mỗi hạt vật chất hấp dẫn một hạt khác với một lực tỷ lệ thuận với khối lượng của hai hạt và tỷ lệ nghịch với bình phương khoảng cách r giữa chúng [2],[5] F G m1 m 2 r2 (2.8) Trong đó: - m1, m2 là khối lượng các hạt - r là khoảng cách giữa 2 hạt - G là hằng số hấp dẫn G=6,67*10-11 N.m2/kg2 - Dấu trừ thể hiện lực hấp dẫn luôn là lực... tài liệu cj Khái niệm phân loại tài liệu ở trên trở thành xây dựng hàm Ф: Ф: DxC → (T,F) (4.1) Giá trị true hoặc false dựa trên việc lựa chọn ngưỡng hàm Φ ( ) Lựa chọn ngưỡng và hàm Ф chính là và hàm Ф được trình bày dưới đây với 3 trường hợp cụ thể 4.1.2 Các trường hợp phân loại Khi xem xét sự phụ thuộc của tài liệu dj D vào lớp tài liệu ci C thì người ta lại chia ra làm 3 loại như sau: Phân loại . đề tài Trên cơ sở nghiên cứu lý thuyết bài toán phân loại tài liệu tự động, lý thuyết xây dựng mô hình phân loại dựa vào kiến trúc phân cấp, lý thuyết mô hình không gian của thuyết vạn vật. từ 41 Hình 4.5: Tài liệu được biểu diễn trên không gian 42 Hình 4.6: Mô hình xây dựng bộ phân loại tài liệu 49 Hình 4.7: Ví dụ phương pháp SVM 54 Hình 4.8: Sơ đồ phân loại một tài liệu d new . bài toán phân loại tự động, trong khuôn khổ luận văn này tôi đề xuất một giải thuật phân loại dựa trên mô hình hóa mô hình lý thuyết vật lý làm giải thuật phân loại. Mô hình vật lý lý thuyết