Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 221 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
221
Dung lượng
14,39 MB
Nội dung
Giới thiệu truy hồi thông tin truy hồi Boole (tham khảo chương 1) Nguyễn Mạnh Hiển hiennm@tlu.edu.vn Tác vụ truy hồi thơng tin (THTT) • Cho: − Tập văn (document collection) − Câu truy vấn (query) người dùng dạng xâu ký tự gồm nhiều từ • Tìm: − Tập văn phù hợp với câu truy vấn, văn thường phân hạng theo độ phù hợp từ cao xuống thấp • Ví dụ: − Tìm thơng tin web dùng Google − Tìm email ứng dụng quản lý email, Gmail Thunderbird Hệ truy hồi thông tin Tập văn Câu truy vấn Hệ truy hồi thông tin Tập văn phân hạng Doc1 Doc2 Doc3 Hệ tìm kiếm web Web Nhện Tập trang web Câu truy vấn Hệ truy hồi thông tin Page1 Page2 Page3 Các trang web phân hạng Dữ liệu khơng có cấu trúc • THTT làm việc với liệu khơng có cấu trúc (unstructured data): − Khơng có cấu trúc rõ ràng, tường minh mặt ngữ nghĩa không dễ cho máy tính xử lý − Văn (text) ảnh (image) dạng liệu khơng có cấu trúc phổ biến − Môn học tập trung vào liệu văn • Nó ngược với liệu có cấu trúc (structured data) hay bắt gặp sở liệu quan hệ − Ví dụ, liệu sản phẩm có cấu trúc rõ ràng, gồm mã sản phẩm, tên sản phẩm, hãng sản xuất, ngày sản xuất, đơn giá, số lượng, … Dữ liệu khơng có cấu trúc • Trong nhiều trường hợp, liệu văn khơng phi cấu trúc hồn tồn − Ví dụ, trang web có phần tiêu đề, có phần thân chia thành đoạn văn, có phần ghi cuối trang, … • THTT cho phép tìm kiếm “bán cấu trúc” (semistructured) − Ví dụ, tìm văn với phần tiêu đề chứa “Java” phần thân chứa “threading” Hỗ trợ duyệt/lọc văn • THTT hỗ trợ người dùng duyệt/lọc tập văn xử lý thêm văn trả cho câu truy vấn • Phân cụm văn (text clustering): Chia văn thành nhóm có nội dung tương tự • Phân lớp văn (text classification): Phân văn chưa biết chủ đề vào chủ đề cho trước − Các chủ đề cịn gọi lớp (class) − Trước tiên cần phân lớp thủ công số văn bản, sau hi vọng phân lớp tự động văn với độ xác tốt Phân loại hệ THTT theo kích cỡ • Tìm kiếm web (cỡ lớn): − Tìm hàng tỉ văn (trang web) lưu hàng triệu máy tính − Những vấn đề riêng cần giải quyết: Thu thập văn để lập mục (indexing) Xây dựng hệ thống làm việc hiệu cỡ lớn Xử lý mặt đặc thù web, khai thác siêu văn (hypertext) chống thủ thuật bẩy thứ hạng trang web chủ trang web Phân loại hệ THTT theo kích cỡ • Tìm kiếm cá nhân (cỡ nhỏ): − Các hệ điều hành hỗ trợ tìm kiếm tài liệu − Các chương trình email, ngồi tìm kiếm, cịn cung cấp chức phân lớp văn dạng lọc thư rác − Những vấn đề riêng cần giải quyết: Xử lý nhiều kiểu tài liệu máy tính cá nhân, docx, xlsx, pptx, odt, txt, pdf, htm, … Hệ thống tìm kiếm phải gọn nhẹ (về mặt khởi động, xử lý, tiêu thụ không gian đĩa) để không gây phiền nhiễu cho người dùng 10 Phân loại hệ THTT theo kích cỡ • Tìm kiếm doanh nghiệp (cỡ trung): − Ví dụ, tìm văn nội công ty, sở liệu sáng chế báo nghiên cứu lĩnh vực khoa học máy tính − Những văn thường lưu hệ thống file tập trung (centralized file system) − Dữ liệu văn lưu trữ nhiều sở liệu quan hệ • Trừ làm việc cho số cơng ty tìm kiếm web, nhà phát triển phần mềm (software developer) hay gặp kịch tìm kiếm cá nhân tìm kiếm doanh nghiệp Phân cụm kiểu phân cấp (hierarchical clustering) • Xây dựng phân cụm (dendogram) từ tập mẫu không nhãn animal vertebrate fish reptile amphib mammal invertebrate worm insect crustacean • Áp dụng đệ quy thuật tốn phân cụm chuẩn tạo phân cụm kiểu phân cấp Phân cụm kiểu tích tụ (agglomerative) phân chia (divisive) • Phương pháp tích tụ (từ lên) bắt đầu cách coi mẫu đơn lẻ cụm riêng, lặp lặp lại việc kết hợp hai cụm thành cụm ngày lớn • Phương pháp phân chia (từ xuống) bắt đầu cách coi tất mẫu lập thành cụm nhất, lặp lặp lại việc tách cụm thành hai cụm rời Phân cụm tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) • Giả sử có hàm tính độ tương tự hai mẫu • Bắt đầu với mẫu lập thành cụm riêng biệt, sau lặp lặp lại việc hợp hai cụm giống cịn cụm • Lịch sử hợp cụm lập thành nhị phân, tức phân cấp cụm Thuật toán HAC Bắt đầu với mẫu lập thành cụm riêng Lặp cụm: Trong số cụm tại, tìm hai cụm ci cj giống Thay ci cj cụm ci cj Độ tương tự cụm • Gọi sim(x, y) độ tương tự hai mẫu x y − Trong trường hợp véctơ văn bản, ta dùng độ đo cơsin • Cách tính độ tương tự hai cụm, cụm chứa nhiều mẫu: − Liên kết đơn (single link): Tính độ tương tự hai mẫu giống (mỗi mẫu thuộc cụm khác nhau) − Liên kết đầy đủ (complete link): Tính độ tương tự hai mẫu khác − Liên kết trung bình (average link): Tính độ tương tự trung bình hai mẫu Phân cụm tích tụ dùng liên kết đơn • Dùng độ tương tự lớn cặp mẫu: sim (ci ,c j ) max sim ( x, y ) xci , yc j • Có thể dẫn đến cụm mảnh nằm trải dài − Phù hợp số ứng dụng, phân cụm hịn đảo Ví dụ liên kết đơn Phân cụm tích tụ dùng liên kết đầy đủ • Dùng độ tương tự nhỏ cặp mẫu: sim(ci ,c j ) sim( x, y ) xci , yc j • Tạo cụm chặt có hình cầu − Những cụm thường ưa thích Ví dụ liên kết đầy đủ Tính tốn độ tương tự hai cụm • Sau hợp hai cụm ci cj, độ tương tự cụm hợp với cụm ck tính nhanh sau: − Liên kết đơn: sim((ci c j ), ck ) max( sim(ci , ck ), sim(c j , ck )) − Liên kết đầy đủ: sim((ci c j ), ck ) min( sim(ci , ck ), sim(c j , ck )) Phân cụm không phân cấp (phẳng) • • • • Thường phải cung cấp trước số cụm k mong muốn Chọn ngẫu nhiên k mẫu làm hạt giống Tạo k cụm khởi đầu dùng hạt giống Lặp lại việc gán mẫu cho cụm gần để cải thiện chất lượng phân cụm • Ngừng phân cụm hội tụ (các cụm không thay đổi nữa) sau số bước lặp định trước Thuật toán phân cụm k-means • Giả sử mẫu véctơ có giá trị thực • Trọng tâm (centroid) cụm c: μ(c) x | c | xc • Việc gán lại mẫu vào cụm dựa khoảng cách tới trọng tâm cụm Các độ đo khoảng cách • Khoảng cách Euclide (chuẩn L2): L2 ( x , y ) • Chuẩn L1: m ( x y ) i i i 1 m L1 ( x , y ) xi yi i 1 • Độ tương tự cơsin (biến đổi sang khoảng cách cách lấy trừ nó): x 1 x y y Các bước thuật toán k-means Gọi d độ đo khoảng cách mẫu Chọn ngẫu nhiên k mẫu {s1, s2, …, sk} làm hạt giống Cho đến phân cụm hội tụ tiêu chuẩn dừng thỏa mãn: Với mẫu xi: Gán xi vào cụm cj cho d(xi, sj) nhỏ (Cập nhật trọng tâm cụm) Với cụm cj: sj = (cj) Phân cụm văn • Ta áp dụng trực tiếp thuật toán phân cụm HAC kmeans vào liệu văn • Thơng thường, ta dùng cách biểu diễn văn TF-IDF độ đo tương tự cơsin • Các ứng dụng: − Phân cụm văn trả để kết tìm kiếm có tính tổ chức cao − Tìm theo trọng tâm cụm trước tiên, sau tìm văn cụ thể cụm có trọng tâm gần − Tự động tạo phân cụm văn để phục vụ mục đích duyệt ... Page2 Page3 Các trang web phân hạng Dữ liệu khơng có cấu trúc • THTT làm việc với liệu khơng có cấu trúc (unstructured data): − Khơng có cấu trúc rõ ràng, tường minh mặt ngữ nghĩa không dễ cho... dạng liệu khơng có cấu trúc phổ biến − Môn học tập trung vào liệu văn • Nó ngược với liệu có cấu trúc (structured data) hay bắt gặp sở liệu quan hệ − Ví dụ, liệu sản phẩm có cấu trúc rõ ràng,... hãng sản xuất, ngày sản xuất, đơn giá, số lượng, … Dữ liệu khơng có cấu trúc • Trong nhiều trường hợp, liệu văn khơng phi cấu trúc hồn tồn − Ví dụ, trang web có phần tiêu đề, có phần thân chia