1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn

85 363 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 2,7 MB

Nội dung

[...]... toán phân loại đa lớp 4.2 Bài toán phân loại tài liệu tự động Từ khái niệm phân loại tài liệu theo 4.1.1 ta có khái niệm đơn giản về bài toán phân loại tài liệu tự động: Phân loại văn tài liệu tự động là việc gán các nhãn phân loại lên một tài liệu mới một cách tự động dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện” Nhiều giải thuật, phương pháp phân. .. phân - Binary case TC: là trường hợp phân loại mà tài liệu phân loại chỉ thuộc về một trong 2 lớp có sẵn Φ : →{ , } (4.2) 33 Phân loại đa lớp - Multi class case TC: là trường hợp phân loại mà tài liệu d j chỉ thuộc về duy nhất một lớp ci nào đó Φ : → (4.3) Phân loại thuộc về nhiều nhãn - Multi label case TC: là trường hợp phân loại mà tài liệu dj có thể thuộc về nhiều lớp tài liệu ci Φ : →2 (4.4) Tài. .. ngưỡng Và như vậy các loại phân loại tài liệu ở trên có thể được mô tả như sau: 34 Φ = ( )> ế Φ ế ượ ạ Φ max {Φ ( )= Φ ( )={ ∈ ,Φ (4.6) ( ), ∀ ( )> ,∀ ∈ ∈ } (4.7) } (4.8) Mục tiêu luận văn đề ra giải thuật phân loại được mô hình theo thuyết vạn vật hấp dẫn Mối liên hệ của tài liệu mới đưa vào và kiến trúc phân loại được xác định dựa theo việc lựa vị trí cân bằng bền cho chất điểm (theo mục 2.9) Luận văn... tài liệu mới đó thuộc về lớp nào trong số các lớp có sẵn Do vậy tài liệu mới cần được trích chọn những đặc trưng cần thiết và phù hợp với hệ thống phân loại Trong chương này luận văn trình bày các khái niệm cơ bản, các tiến trình xử lý của một hệ thống phân loại 4.1 Khái niệm phân loại 4.1.1 Khái niệm Khái niệm phân loại tài liệu đơn giản như sau: Phân loại văn tài liệu là việc gán các nhãn phân loại. .. liệu ci Φ : →2 (4.4) Tài liệu Phân loại nhị phân Yes Phân loại đa lớp No C1 Ci Phân loại đa nhãn Cj C1 Ci Cj Hình 4.1: Các loại phân loại tài liệu Ví dụ: một tài liệu nói về môn thể thao ”đi bộ” có thể là nhánh con của lớp ”điền kinh” thuộc nhánh lớn ”oplimpic” cũng có thể là nhánh con của lớp ”các môn phục hồi chức năng” thuộc nhánh lớn ”y học” Trong hai hướng tiếp cận phân loại multi-class và multi... cập đến bài toán phân loại văn bản, trình bày những khái niệm căn bản về phân loại văn bản, tiền xử lý, cách thức trích chọn đặc trưng, biểu diễn tài liệu, … Để chỉ ra được mức độ hiệu quả, thử nghiệm độ chính xác lý thuyết đề xuất, chương 5 đề cập đến các bước mô hình hóa lý thuyết đề xuất cho bài toán phân loại tài liệu Quá trình mô tả sẽ được thử nghiệm bằng một modul phân loại tài liệu Trong khuôn... lên một tài liệu mới dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện”[24] Cho: D: không gian các tài liệu mẫu D(d1, d2, ,ds) C: tập đã định nghĩa các loại tài liệu C(c1, c2, c|C|) Với cặp (di, cj) ∈ DxC nhận giá trị Boolean (T,F), với giá trị T ứng với trường hợp tài liệu di thuộc về nhóm tài liệu cj và với giá trị F ứng với trường hợp tài liệu di... về của một tài liệu mới trong kiến trúc phân cấp của luận văn 24 CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY) Xây dựng kiến trúc phục vụ phân loại là một trong các bước đầu tiên của bài toán phân loại tài liệu tự động Hầu hết các kiến trúc phân loại đang sử dụng đều được xây dựng thủ công do nhóm các chuyên gia thực hiện Kiến trúc phân loại này trên thực tế được sử dụng với khái niệm cây phân loại hay taxonomy... thành định luật vạn vật hấp dẫn hoàn chỉnh Định luật vạn vật hấp dẫn Mỗi hạt vật chất hấp dẫn một hạt khác với một lực tỷ lệ thuận với khối lượng của hai hạt và tỷ lệ nghịch với bình phương khoảng cách r giữa chúng [2],[5] F  G m1 m 2 r2 (2.8) Trong đó: - m1, m2 là khối lượng các hạt - r là khoảng cách giữa 2 hạt - G là hằng số hấp dẫn G=6,67*10-11 N.m2/kg2 - Dấu trừ thể hiện lực hấp dẫn luôn là lực... tài liệu cj Khái niệm phân loại tài liệu ở trên trở thành xây dựng hàm Ф: Ф: DxC → (T,F) (4.1) Giá trị true hoặc false dựa trên việc lựa chọn ngưỡng hàm Φ ( ) Lựa chọn ngưỡng và hàm Ф chính là và hàm Ф được trình bày dưới đây với 3 trường hợp cụ thể 4.1.2 Các trường hợp phân loại Khi xem xét sự phụ thuộc của tài liệu dj  D vào lớp tài liệu ci  C thì người ta lại chia ra làm 3 loại như sau: Phân loại . đề tài Trên cơ sở nghiên cứu lý thuyết bài toán phân loại tài liệu tự động, lý thuyết xây dựng mô hình phân loại dựa vào kiến trúc phân cấp, lý thuyết mô hình không gian của thuyết vạn vật. từ 41 Hình 4.5: Tài liệu được biểu diễn trên không gian 42 Hình 4.6: Mô hình xây dựng bộ phân loại tài liệu 49 Hình 4.7: Ví dụ phương pháp SVM 54 Hình 4.8: Sơ đồ phân loại một tài liệu d new . bài toán phân loại tự động, trong khuôn khổ luận văn này tôi đề xuất một giải thuật phân loại dựa trên mô hình hóa mô hình lý thuyết vật lý làm giải thuật phân loại. Mô hình vật lý lý thuyết

Ngày đăng: 28/09/2014, 10:38

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Quỹ đạo của các hành tinh là một elip và mặt trời là một tiêu điểm  Biểu thức toán học trong hệ tọa độ cực - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 2.1 Quỹ đạo của các hành tinh là một elip và mặt trời là một tiêu điểm Biểu thức toán học trong hệ tọa độ cực (Trang 13)
Hình 2.2: Phần diện tích quét được là như nhau - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 2.2 Phần diện tích quét được là như nhau (Trang 14)
Hình 2.3. Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 2.3. Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau (Trang 16)
Hình 2.4. Đồ thị độ lớn F eb  đo lực hấp dẫn của Trái đất tác dụng lên vật b (m b =  1 kg) theo khoảng cách r tính từ tâm trái đất - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 2.4. Đồ thị độ lớn F eb đo lực hấp dẫn của Trái đất tác dụng lên vật b (m b = 1 kg) theo khoảng cách r tính từ tâm trái đất (Trang 18)
Hình 2.6. Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 2.6. Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x (Trang 24)
Hình 3.4: Ví dụ về facet taxonomy – kiến trúc hình sao - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 3.4 Ví dụ về facet taxonomy – kiến trúc hình sao (Trang 28)
Hình 3.5: Ví dụ về network taxonomy - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 3.5 Ví dụ về network taxonomy (Trang 29)
Hình 3.6: Một metadata cho khái niệm của taxonomy - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 3.6 Một metadata cho khái niệm của taxonomy (Trang 30)
Hình 3.7: Sự không có cấu trúc và có cấu trúc trước và sau khi xây dựng taxonomy  Xây  dựng  taxonomy  là  một  tiến  trình  lặp  đi  lặp  lại  các  bước  nhận  dạng  nội - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 3.7 Sự không có cấu trúc và có cấu trúc trước và sau khi xây dựng taxonomy Xây dựng taxonomy là một tiến trình lặp đi lặp lại các bước nhận dạng nội (Trang 31)
Hình 4.1: Các loại phân loại tài liệu - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.1 Các loại phân loại tài liệu (Trang 34)
Hình 4.2 : Mô hình phân loại tài liệu tự động - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.2 Mô hình phân loại tài liệu tự động (Trang 38)
Hình 4.3: Tiền xử lý trang web - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.3 Tiền xử lý trang web (Trang 40)
Hình 4.4: Một không gian vecto 2 chiều. mỗi chiều tương ứng với 1 từ. - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.4 Một không gian vecto 2 chiều. mỗi chiều tương ứng với 1 từ (Trang 42)
Hình 4.5: Tài liệu được biểu diễn trên không gian - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.5 Tài liệu được biểu diễn trên không gian (Trang 43)
Hình 4.6: Mô hình xây dựng bộ phân loại tài liệu - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.6 Mô hình xây dựng bộ phân loại tài liệu (Trang 50)
Hình 4.7: Ví dụ phương pháp SVM - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.7 Ví dụ phương pháp SVM (Trang 55)
Hình 4.8: Sơ đồ phân loại một tài liệu d new  mới vào lớp c i - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 4.8 Sơ đồ phân loại một tài liệu d new mới vào lớp c i (Trang 60)
Hình 5.1: Các link tương ứng với chủ đề và link tương ứng với cấp con  Các  trang  web  trong  cấu  trúc  phân  cấp  của  yahoo  đều  thể  hiện  các  nội  dung  chủ đạo như trên và thống nhất cho toàn site - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.1 Các link tương ứng với chủ đề và link tương ứng với cấp con Các trang web trong cấu trúc phân cấp của yahoo đều thể hiện các nội dung chủ đạo như trên và thống nhất cho toàn site (Trang 63)
Hình 5.2: Danh sách các lớp (hay nút) ở mức 1của kiến trúc dir.yahoo.com - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.2 Danh sách các lớp (hay nút) ở mức 1của kiến trúc dir.yahoo.com (Trang 64)
Hình 5.3:  Các bước xây dựng taxonomy của site http://dir.yahoo.com - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.3 Các bước xây dựng taxonomy của site http://dir.yahoo.com (Trang 66)
Hình 5.4: Lượng hóa đặc trưng nút - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.4 Lượng hóa đặc trưng nút (Trang 67)
Hình 5.5: Các giai đoạn cần thiết cho quá trình lựa chọn đặc trưng  Giải thuật mô tả trích chọn đặc trưng của nút - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.5 Các giai đoạn cần thiết cho quá trình lựa chọn đặc trưng Giải thuật mô tả trích chọn đặc trưng của nút (Trang 67)
Hình 5.9 : Khoảng cách từ nút cha đến các nút con dưới k cấp - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.9 Khoảng cách từ nút cha đến các nút con dưới k cấp (Trang 72)
Hình 5.10 : Khoảng cách từ nút con đến nút cha k cấp - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.10 Khoảng cách từ nút con đến nút cha k cấp (Trang 72)
Bảng 5.1: Tổng hợp các thông số tập dữ liệu download bằng wget - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Bảng 5.1 Tổng hợp các thông số tập dữ liệu download bằng wget (Trang 76)
Bảng 5.2: Thông số tập dữ liệu sau bước tiền xử lý - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Bảng 5.2 Thông số tập dữ liệu sau bước tiền xử lý (Trang 77)
Bảng 5.3: Các định nghĩa thành phần dữ liệu - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Bảng 5.3 Các định nghĩa thành phần dữ liệu (Trang 77)
Hình 5.12. Thống kê số nút và số đặc trưng của nút - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Hình 5.12. Thống kê số nút và số đặc trưng của nút (Trang 78)
Bảng 5.5: Kết quả thử nghiệm phân loại 900 test trên toàn không gian - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Bảng 5.5 Kết quả thử nghiệm phân loại 900 test trên toàn không gian (Trang 79)
Bảng 5.6 So sánh kết quả thử nghiệm với bộ phân loại Telltale - Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn
Bảng 5.6 So sánh kết quả thử nghiệm với bộ phân loại Telltale (Trang 80)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w