Trích chọn thông tin trên web
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trích chọn thông tin Web Giáo viên hướng dẫn: TS Phan Xuân Hiếu Nhóm thực hiện: Nhóm NỘI DUNG 1- Tổng quan trích chọn thông tin 2- Các mô hình trích chọn thông tin 3- Trích chọn thông tin từ văn 4- Trích chọn thông tin Web 1- Tổng quan trích chọn thông tin Mô hình biểu diễn tri thức cho tài liệu văn bao gồm thành phần tri thức như: siêu liệu mô tả nguồn gốc, cấu trúc văn (tiêu đề, tác giả, nơi xuất bản, năm xuất bản, chủ đề, nơi lưu trữ, ) Các cụm từ khóa, thực thể Quan hệ thực thể biểu diễn nội dung tài liệu Hỗ trợ truy vấn thông minh, tìm kiếm thông tin, tài liệu liên quan từ kho tài liệu thu thập, tổ chức lưu trữ Tổng quan trích chọn thông tin Phương pháp, công cụ rút trích thông tin văn như: Rút trích từ khóa, cụm từ khóa Rút trích thực thể (có tên, không tên) Rút trích mối quan hệ Rút trích thành phần cấu trúc, metadata tài liệu … Tổng quan trích chọn thông tin Rút trích từ khóa, cụm từ khóa Rút trích thuật ngữ (Terminology extraction) tìm kiếm thuật ngữ có liên quan, thể ngữ nghĩa, nội dung, chủ đề tài liệu hay tập tài liệu Rút trích thực thể (có tên, không tên) named entity recognition việc rút trích thực thể có tên tập trung vào phương pháp nhận diện đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, địa danh, nơi chốn Tổng quan trích chọn thông tin Các bước Extraction hệ thống Information Tiền xử lý Nhận biết định dạng tài liệu (Format detection) Tách từ (Tokenization) Phân đoạn từ (Word segmentation) Giải nhập nhằng ngữ nghĩa (Sense disambiguation) Tách câu (Sentence splitting) Gán nhãn từ loại (POS tagging) Nhận diện thực thể đặt tên (Named Entity Detection) Nhận biết thực thể (Entity detection) Xác định đồng tham chiếu (Coreference) Tổng quan trích chọn thông tin Các cách tiếp cận phương pháp rút trích thông tin Tiếp cận tri thức Tiếp cận học tự động Dựa luật, mẫu xây dựng thủ công Dựa học máy thông kê Được phát triển chuyên gia ngôn ngữ, chuyên gia lĩnh vực có kinh nghiệm Người phát triển không cần thành thạo ngôn ngữ, lĩnh vực Dựa vào trực giác, quan sát Hiệu đạt Cần lượng lớn liệu học tốt Việc phát triển tốn nhiều thời gán nhãn tốt gian Khi có thay đổi cần phải Khó điều chỉnh có thay đổi gán nhãn lại cho tập liệu học Tổng quan trích chọn thông tin Thuật toán KEA thuật toán trích xuất cụm từ khóa (keyphrases) từ liệu văn Xác định danh sách cụm ứng viên dùng phương pháp từ vựng học Tính toán giá trị đặc trưng cho ứng viên Tiếp đến dùng thuật toán học máy để tiên đoán xem cụm ứng viên cụm từ khóa Thuật toán KEA Cụm ứng viên cụm ứng viên n-gram (chiều dài đến từ) dùng từ điển định nghĩa trước chuyển dạng gốc từ (stemming) Thuật toán KEA Tính toán đặc trưng TF×IDF Vị trí xuất gần đầu hay cuối tài liệu có khả trở thành cụm từ khóa Chiều dài cụm chiều dài thường quan tâm Độ tương quan số lượng cụm danh sách cụm ứng viên có liên quan ngữ nghĩa với cụm xét tính nhờ vào từ điển định nghĩa trước Kết Quả 4-Trích chọn thông tin Web Hiện trang web xây dựng ngôn ngữ lập trình tự động PHP, ASP… Khi người dùng vào trang kinh doanh sản phẩm tìm kiếm sản phẩm kết trả hiển thị trình duyệt theo số khuôn mẫu định sẵn, trang khuôn mẫu có chung cấu trúc HTML Trích chọn thông tin Web Ví dụ: Trích chọn thông tin Web Hai trang detail giới thiệu hai sản phẩm khác có chung dạng biểu diễn DOM Trích trọn thông tin giá sản phẩm Bài toán 1: Xác định giá thực sản phẩm Bài toán 2: Tự động trích chọn thông tin tên giá sản phẩm Trích trọn thông tin giá sản phẩm Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Bài toán tiền đề: Đầu vào: Mã nguồn HTML trang Web Đầu ra: Các giá chứa mã nguồn Ví dụ: Với trag Web kinh doanh sản phẩm “HP Mini-note” Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Các giá trích chọn là: - 6,559,000 VNĐ - 4,950,000 VNĐ - 13,999,000 VNĐ - 14,399,000 VNĐ Sử dụng DOM tương ứng với HTML trang, sau duyệt qua DOM để xác định giá chứa trang Để xác định Note DOM chứa giá sử dụng luật xác định giá Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Để xác định giá sử dụng số luật sau: Trước giá có tiền tố như: “GIÁ”, “PRICE” Sau giá có hậu tố như: “VNĐ”, “USD”, “VND”, “Đ”, “$” Định dạng giá: dạng số {0, 1, 2, …, “”, “.”} Node chứa giá là: #tcxt Trong số trường hợp thỏa mãn điều kiện tiền tố, hậu tố định dạng giá Nhưng giá có ý nghĩa => Xây dựng tiền tố loại trừ để loại trừ giá ý nghĩa Một số tiền tố loại trừ như: “Giá cũ”, “Giá bìa”, “Giá thị trường”, … Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Mô tả toán: Đầu vào: Tên sản phẩm trang Web liên quan đến sản phẩm Đầu ra: Giá thực sản phẩm, mẫu trích chọn giá thực mẫu trích chọn tê sản phẩm Ví dụ: đầu vào trang web bán sản phẩm Nokia 1200 nhưsau: Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Đầu giá sản phẩm : VNĐ 540.000 giá thực sản phẩm, mẫu trích xuất tên sản phẩm là: “HTML →BODY →TABLE[1] →TR[1] →TD[1] →Tên sản phẩm” mẫu trích xuất giá là: “HTML → BODY → TABLE[1] → TR[2] →TD[2] → Giá thực sản phẩm” Bài toán 1: Trích trọn thông tin giá sản phẩm xác định Bài toán 2: Tự động trích chọn thông tin tên giá sản phẩm Mô tả toán: Đầu vào: Một tập hạt giống tê sản phẩm Đầu ra: Các Website kinh doanh sản phẩm mẫu trích xuất thông tin tên, giá sản phẩm Phương pháp giải Bước 1: Xác định trang liên quan Bước 2: Lấy mẫu trích xuất tương ứng với trang bước Bước 3: Xác định Website kinh doanh mẫu trích xuất tươg ứng XIN CHÂN THÀNH CẢM ƠN ! [...]... học khác so với thực tế Cần tìm bộ tham số tối ưu cho mô hình, tìm λ’ sao cho Mô hình markov ẩn trong trích chọn thông tin Việc trích chọn thông tin trong văn bản chính là việc đi gán nhãn cho các từ trong văn bản Input: Văn bản Output: Văn bản với các từ được gán nhãn Ví dụ: trích chọn thông tin về quảng cáo rao vặt Input: Bán HP Probooks 4430s - Core i5 2450/ram4GB/ổ 500GB/vỏ nhôm/gía 7,6... Probooks/N 4430s/M – Core/C i5/C 2450/C ram 4GB/M ổ 500GB/D vỏ/L nhôm/L gía 7,6/P triệu/P T: loại hình: mua/bán N: Tên sản phẩm M: Model sản phẩm C: Thông tin CPU M: Thông tin bộ nhớ D: Thông tin ổ cứng L: Thông tin về hình thức bên ngoài P: Thông tin về giá Đưa bài toán vào mô hình: Các nhãn chính là tập các trạng thái của mô hình, còn các từ chính là dữ liệu quan sát Tìm tập các nhãn phù... dụng thông tin mật độ chữ văn bản và mật độ thẻ để đánh dấu cho các phần khác nhau của trang web Ý tưởng chính của thuật toán BTE được Aidan Finn [7] đề xuất như sau : Xác định hai điểm i, j sao tokens) dưới i và trên j là (text-tokens) giữa i và j rút chính là các dấu hiệu được tách ra cho số thẻ HTML (tagtối đa, đồng thời số từ là tối đa Kết quả trích văn bản giữa đoạn [i, j] 2- Các mô hình trích. .. 1995-1996 Trong phương pháp này thì một tập hợp các luật trích xuất được học từ một bộ các trang đã được gán nhãn bằng tay Sau đó các luật này sẽ được dùng để trích xuất các thành phần dữ liệu từ những trang có định dạng tương tự Một số giải thuật tiêu biểu như: Stalker[5], WIEN[13] (được sử dụng trong máy tìm kiếm lycos) Trích xuất thông tin dựa vào cây DOM Thuật toán BTE Thuật toán BTE (Body... dưới i và trên j là (text-tokens) giữa i và j rút chính là các dấu hiệu được tách ra cho số thẻ HTML (tagtối đa, đồng thời số từ là tối đa Kết quả trích văn bản giữa đoạn [i, j] 2- Các mô hình trích chọn thông tin CONDITIONAL RANDOM FIELDS MÔ HÌNH MARKOV ẨN Mô hình markov ẩn Định nghĩa S=S1, S2, …, SN: Tập các trạng thái π={πi|i=1…N}: xác xuất khởi tạo cho các trạng thái A=a11, a12, …, aN1,... trong từ điển định nghĩa trước đó sẽ dùng để tính toán điểm hay trọng số cho một cụm danh từ Từ đó quyết định cụm ứng viên nào là cụm từ khóa dựa trên trọng số, điểm số đã tính được cao hơn Thuật toán Co-ocurrence của từ Tư tưởng Frequent term được trích xuất đầu tiên Một tập hợp xảy ra đồng thời trong cùng một câu giữa mỗi term và các frequent term khác Phân bố co-occurrence cho thấy tầm... aN1, … aNN: Ma trận chuyển trạng thái aij: xác suất chuyển từ trạng thái Sisang trạng thái Sj, O=o1, o2, …, oT: Chuỗi quan sát B={bi(ot)|i=1…N}: Phân phối xác xuất của quan sát, xác xuất xuất hiện ot trên trạng thái Si S0, Send: trạng thái đặc biệt không liên quan đến quan sát Các vấn đề chính Vấn đề 1: Cho chuỗi quan sát O=o1, o2, …, oT và mô hình HMM λ=(A,B,π) Tính xác xuất của chuỗi O Vấn... Thuật toán gán nhãn Giới thiệu Mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt là CRFs) được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp CRFs là mô hình dựa trên xác suất điều kiện thường sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Ví dụ việc gán nhãn cho các từ trong câu sẽ tương ứng với loại từ vựng, các câu là dữ liệu