Phân loại trang web dựa trên phương pháp đồng huấn luyện (tt)

4 5 0
Phân loại trang web dựa trên phương pháp đồng huấn luyện (tt)

Đang tải... (xem toàn văn)

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ĐẶNG VŨ TÙNG PHÂN LOẠI TRANG WEB DỰA TRÊN PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TỪ MINH PHƯƠNG HÀ NỘI - 2011 MỞ ĐẦU Phân loại kỹ thuật quan trọng lĩnh vực khai phá liệu Nó sử dụng để xây dựng mơ hình phân loại thơng qua tập liệu huấn luyện biết trước ứng dụng để dự đoán mẫu cần phân loại Một phương pháp phân loại hiệu cải thiện hiệu suất độ xác thơng tin tìm kiếm Cùng với phát triển nhanh chóng Internet, World Wide Web trở thành công cụ vận chuyển chủ yếu thông tin điện tử Yêu cầu người sử dụng khai thác thông tin Web họ phải có kết xác nhanh chóng Phân loại trang Web bước quan trọng góp phần giải yêu cầu Mặt khác, phân loại trang Web trợ giúp cho việc thu thập liệu để phát triển thư mục Web, phân tích liên kết Web theo chủ đề phân tích cấu trúc chủ đề Web Trên thực tế có nhiều nghiên cứu sử dụng thuật tốn học có giám sát cho tốn phân loại trang Web như: Nạve Bayes (NB), Máy hỗ trợ vector (Support Vector Machines - SVMs), k-láng giềng gần (k-NN), nhìn chung phương pháp đòi hỏi tập lớn liệu huấn luyện có gán nhãn để đạt kết phân loại xác, dẫn đến chi phí ban đầu cho liệu huấn luyện cao làm giảm đáng kể hiệu phương pháp phân loại Mặt khác, mức độ phù hợp thuật toán chưa đánh giá kỹ lưỡng cho yêu cầu phân loại tập hợp lớn trang Web Yahoo! directory Open Directory Project (ODP) Một câu hỏi đặt là: Có thể đưa phương pháp phân loại khác đạt độ xác cao cho ví dụ khơng gán nhãn để bổ sung vào tập ví dụ gán nhãn? Học bán giám sát (semi-supervised learning) kỹ thuật học máy sử dụng liệu gán nhãn không gán nhãn Nó thể áp dụng để giải lớp toán phân loại, hồi quy, phân cụm Mục tiêu học bán giám sát đưa dự đốn xác so với học có giám sát dựa vào liệu gán nhãn Đồng huấn luyện (Co-training) kỹ thuật học bán giám sát giới thiệu lần đầu Avrim Blum Tom Mitchell vào năm 1998 Mục đích đồng huấn luyện cung cấp khả phân loại cách xác hiệu tập lớn liệu không gán nhãn dựa vào tập nhỏ ban đầu liệu gán nhãn Với toán phân loại trang Web, ví dụ mơ tả hai tập đặc trưng X1 X2, trước tiên sử dụng tập ví dụ huấn luyện có gán nhãn để huấn luyện hai phân loại khác nhau: phân loại sử dụng đặc trưng X1, phân loại lại sử dụng đặc trưng X2 Phân loại sau áp dụng cho ví dụ huấn luyện khơng gán nhãn chọn (hoặc số) ví dụ có độ tin cậy cao để gán nhãn cho ví dụ Phân loại thứ hai đào tạo lại ví dụ vừa gán nhãn với ví dụ gán nhãn có Quy trình huấn luyện mơ tả gọi đồng huấn luyện Quy trình lặp lại nhiều lần, lần gán nhãn cho số ví dụ không gán nhãn Từ lý nêu trên, khuân khổ luận văn này, chọn đề tài "PHÂN LOẠI TRANG WEB DỰA TRÊN PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN" Cấu trúc luận văn chia thành ba chương, cụ thể sau: Chương - TỔNG QUAN VỀ PHÂN LOẠI TRANG WEB: Trình bày tốn phân loại trang Web ứng dụng; Khảo sát đặc trưng trang Web áp dụng cho toán phân loại số phương pháp tiếp cận phân loại trang Web thực tế, đồng thời giới thiệu số kỹ thuật sử dụng phân loại trang Web Chương - CÁC KỸ THUẬT HỌC MÁY ỨNG DỤNG CHO BÀI TOÁN PHÂN LOẠI TRANG WEB: Giới thiệu kỹ thuật học máy ứng dụng lĩnh vực phân loại nói chung phân loại trang Web nói riêng bao gồm: học giám sát, học không giam sát học bán giám sát Với kỹ thuật học, chọn giới thiệu số thuật toán tiêu biểu Chương - PHÂN LOẠI TRANG WEB DỰA TRÊN PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN: Nội dung chương trình bày ứng dụng phổ biến kỹ thuật đồng huấn luyện phân loại trang Web Đồng thời đề cập phương pháp thử nghiệm phân tích kết để đánh giá hiệu kỹ thuật đồng huấn luyện Kết luận - Nêu kết đạt định hướng phát triển đề tài ... - PHÂN LOẠI TRANG WEB DỰA TRÊN PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN: Nội dung chương trình bày ứng dụng phổ biến kỹ thuật đồng huấn luyện phân loại trang Web Đồng thời đề cập phương pháp thử nghiệm phân. .. PHÂN LOẠI TRANG WEB: Trình bày toán phân loại trang Web ứng dụng; Khảo sát đặc trưng trang Web áp dụng cho tốn phân loại số phương pháp tiếp cận phân loại trang Web thực tế, đồng thời giới thiệu... nêu trên, khuân khổ luận văn này, chọn đề tài "PHÂN LOẠI TRANG WEB DỰA TRÊN PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN" Cấu trúc luận văn chia thành ba chương, cụ thể sau: Chương - TỔNG QUAN VỀ PHÂN LOẠI TRANG

Ngày đăng: 19/03/2021, 17:55

Tài liệu cùng người dùng

Tài liệu liên quan