1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 1. Giới thiệu chung

25 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,15 MB

Nội dung

Giới thiệu chung về khai phá dữ liệu giới thiệu về khai phá text và khai phá Web nhằm giúp các bạn sinh viên nắm vững các khái niệm sự cần thiết của khai phá và đặc trưng của khai phá text và khai phá web. Khai phá text là khai phá dữ liệu đối với loại dữ liệu text.

BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG GIỚI THIỆU CHUNG PGS TS HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu khai phá text Giới thiệu khai phá web Giới thiệu khai phá text       Khái niệm Sự cần thiết khai phá text Đặc trưng khai phá text Các toán khai phá text Một ví dụ toán khai phá text Xu hướng nghiên cứu khai phá Text Khái niệm  Tiếp cận khái niệm khai phá text  Khai phá text khai phá liệu loại liệu text  Q trình phát tri thức mới, có giá trị, tiềm ẩn tập hợp văn  Mang tính đa dạng phát biểu khái niệm khai phá liệu  Nội dung  Khai phá text = Khai phá liệu + Xử lý ngôn ngữ tự nhiên - XLNNTN (Natural Language Processing: NLP)  Các toán chung khai phá liệu cho liệu đặc thù  Một số tốn riêng điển hình cho khai phá text  Mối quan hệ Khai phá Text XLNNTN  XLNNTN cung cấp tài nguyên, công cụ sở cho khai phá Text  Khai phá Text mở rộng toán XLNNTN  Đan xen Khai phá Text với XLNNTN Quy trình khai phá text  Tuân theo quy trình chung khai phá liệu  Như trình bày khai phá liệu  Quy trình tối giản  Tiền xử lý   Công cụ Xử lý ngơn ngữ tự nhiên Mơ hình cấu trúc văn  Biểu diễn văn  Phù hợp với thuật toán  Xử lý (khai phá) liệu theo dạng biểu diễn  Áp dụng khai phá liệu Sự cần thiết khai phá text  Text gần gũi với người  Là đối tượng quan trọng chuyển tải thơng tin lồi người  Phương tiện trình bày tri thức  chuyển giao người khác  Học chữ toán quan trọng người  Đặc thù ngôn ngữ tự nhiên  Tính đa nghĩa, đồng nghĩa đơn vị cú pháp nhỏ từ  Tính cảm ngữ cảnh trình bày nội dung văn  Tính biến động ngôn ngữ tự nhiên: bổ sung, thay đổi…  Sự tăng trưởng liệu Text  Khả tạo  Khả lưu trữ Đặc trưng khai phá text Dấu hiệu phân biệt Đối tượng liệu Khai phá liệu Dữ liệu số / phân loại Cấu trúc đối tượng CSDL quan hệ Khai phá Text Văn Text dạng tự do: không cấu trúc, nửa cấu trúc Mục tiêu Dự báo, đốn nhận Tìm kiếm thơng tin liên quan, hiểu ngữ nghĩa, phân lớp / phân bố Phương pháp Học máy: DT, MBR, … Chỉ số, xử lý mạng nơron, ngơn ngữ, kiến trúc Kích cỡ thị trường Trăm nghìn phân tích viên Hàng triệu người dùng từ từ cơng ty lớn vừa hãng cá nhân Tình trạng Quảng bá từ năm 1994 Mới quảng bá từ năm 2000 Sergei Ananyan (2001) Text Mining: Applications and Technologies, Megaputer Intelligence Inc (truy nhập ngày 13/9/2003) Một số tốn điển hình TM  Biểu diễn Text      Là toán quan trọng khai phá Text Nghịch lý “hiệu nhau” tìm kiếm Text Tìm biểu diễn phù hợp cho toán khai phá text Một lớp hướng mơ hình biểu diễn Text: Mơ hình sinh Text Nội dung chương  Tìm kiếm/thu hồi Text (Text Search/Retrieval)  Cho tập văn yêu cầu tìm kiếm người dùng (dạng văn / khác)  Mục đích: Tìm tập văn CSDL đáp ứng yêu cầu người dùng  Đã tồn CSDL Text: Tìm kiếm full-text CSDL  Tìm kiếm Internet Máy tìm kiếm: Nội dung chương Một số toán điển hình TM (2)  Phân lớp văn     Tương ứng học có giám sát (học có thầy) Cho trước tập lớp tập ví dụ Mục tiêu : mơ hình phân lớp thực ánh xạ văn vào lớp Ví dụ:  Phân cụm văn     Tương ứng hoc không giám sát Cho trước tập văn Mục tiêu : tập cụm văn tóm tắt cụm Ví dụ:  Phân đoạn văn  Phân cụm phân lớp  Ví dụ: Một số tốn điển hình TM (3)  Phân tích ngữ nghĩa  Hiểu văn (xem DUC: Document Understanding Conferences TAC: Text     Analysis Conferences) Ngữ nghĩa thành phần văn Phát quan hệ thực thể văn Taxonomy, ontology, web ngữ nghĩa (semantic Web) Roxana Girju [Gij08] liệt kê số danh sách quan hệ ngữ nghĩa, có danh sách 22 quan hệ tác giả tổng hợp:       HYPERNYMY (IS-A) PART-WHOLE (MERONYMY) KINSHIP MAKE/PRODUCE INSTRUMENT LOCATION/SPACE PURPOSE SOURCE/FROM TOPIC MANNER MEANS GENT THEME PROPERTY BENEFICIARY TYPE DEPICTIONDEPICTED CAUSE POSSESSION TEMPORAL EXPERIENCER MEASURE [Gir08] Roxana Girju (2008) Semantic Relation Extraction and its Applications, ESSLLI 2008: Invited Tutorial, Hamburg, Germany, August 2008 10 Một số tốn điển hình TM (4)  Trích chọn đặc trưng  Phát hiện/lưu trữ từ khóa (term), đặc trưng (feature), cụm từ mang nghĩa Đặc trưng chưa định trước: xác định đồng thời với phân tích nội dung Phân biệt trích chọn đặc trưng (feature extraction) với chọn lựa đặc trưng (feature selection) Phân tích văn để phát tần số xuất     Tóm tắt văn  Document Abstract/Summarization Xây dựng văn thu gọn (tỷ lệ/số lượng từ/câu) song giữ ngữ nghĩa Abstract (rút trích câu) /Summarization (xây dựng câu) Xây dựng tự động mục lục văn Tóm tắt đơn văn bản/ tóm tắt đa văn Quan hệ chặt chẽ với “hiểu văn bản”      11 Một số tốn điển hình TM (5)  Xây dựng ontology  Kho ngữ liệu một/một nhóm lĩnh vực Phục vụ, nâng cao chất lượng toán ngữ nghĩa Tập khái niệm, lớp khái niệm, quan hệ chúng Biểu diễn hình học dạng đồ thị Dạng đặc biệt: Taxonomy Ví dụ: WordNet, TreeBank       Kế thừa nguyên (Textual Entailment)  “Văn T kế thừa giả thiết nguyên H” tính chân thực H suy diễn từ T “Ý nghĩa” T tiềm ẩn H: trình bày H phù hợp trình bày T (mức độ chi tiết hay trừu tượng)   Dẫn đường văn (Text focusing)  Tích hợp xử lý văn với sở tri thức cho phép kết nối trực tiếp tri thức trình xử lý văn Dẫn dắt văn theo tri thức kết nối  12 Một số tốn điển hình TM (6)  Khai phá quan điểm   Là chủ đề thời Đối tượng: không vật/ tượng mà tình cảm thái độ Ứng dụng: tiếp thị (quan hệ khách hàng), điều tra xã hội học… Một số ví dụ  Khai phá Text lĩnh vực cụ thể  Y Sinh học: Quan hệ tương tác protein – protein, gene – bệnh Các lĩnh vực khoa học khác:    13 Một số tốn ví dụ  Ví dụ  Nêu tốn: Nhằm mục đích qn lý, cơng ty Nhật Bản muốn xây dựng hệ thống “quản lý” nội dung máy in công ty in  Đặt vấn đề:   Xây dựng hệ thống quản lý văn với thuộc tính in văn Do số lý do, điều công ty muốn Quản lý nội dung in ra: Dữ liệu nguồn dịng liệu qua máy in cơng ty Cần xây dựng hệ thống có lực (1) lấy dòng liệu Text tới máy in; (2) Tổ chức lại hệ thống văn in để thuận tiện cho việc quản lý  Giải pháp:   Thu nhận liệu: Xây dựng luồng xử lý dòng liệu vào máy in, đưa máy in đưa vào thành phần xử lý Tổ chức hệ thống văn bản: Tiền xử lý liệu; phân lớp cấp (trong có phân cụm) Nguồn: từ học viên công tác FSOFT làm việc với Nhật Bản 14 Một số tốn ví dụ (2)  Ví dụ Bài tốn Rich Caruana & cộng  Bài toán: Cho trước tập (khoảng 300000) cơng trình nghiên cứu khoa học (bài đăng tạp chí, báo cáo hội nghị, luận án Tiến sỹ) công bố Từ nội dung văn cơng trình nghiên cứu, nhận tên tác giả (các tác giả), tài liệu tham khảo, nơi cơng bố (tên tạp chí, hội nghị, hội thảo …)  Yêu cầu: Chỉ dùng nội dung, năm XB tên tác giả tài liệu, tìm ra:  Tìm diễn biến theo thời gian chủ đề khoa học theo số tiêu chí tỷ lệ tài liệu theo chủ đề, chủ đề bật mới, thời điểm chủ đề cụ thể đat đỉnh cao nhất, chủ đề tàn lụi theo đó, tìm chủ đề có vai trị chủ chốt  Nhận biết tài liệu có uy tài liệu giới thiệu ý tưởng có số ảnh hưởng lớn  Nhận biết tác giả có uy tác giả có ảnh hưởng lớn phát triển chủ đề [CJG06] Rich Caruana, Thorsten Joachims, Johannes Gehrke, Benyah Shaparenko (2006) Patterns and Key Players in Document Collections, KDD Challenge 2005 Một số tốn ví dụ  Ví dụ Một kết [CJG06] Phân cụm tài liệu gán nhãn cụm (bằng từ khóa điển hình cụm) Biểu diễn hình học theo thời gian Nghiên cứu khai Text  Theo thống kê từ Google Scholar số viết:  Với cụm từ “Text Mining”:   Ở tiêu đề: 2.800 (khoảng) Ở nơi: 33.000 (khoảng)  Với cụm từ “Text Analysis”:    Ở tiêu đề: Ở nơi: 1.680 (khoảng) 43.300 (khoảng) Nơi công bố tài liệu Khai phá Text  Thường kèm với XLNNTN  The ACL Anthology Network Corpus: http://aclweb.org/ anthology-new/ ACL:    “The Association for Computational Linguistics is THE international scientific and professional society for people working on problems involving natural language and computation” DUC (Document Understanding Conferences: http://duc.nist.gov/ : 2001-2007) TAC (Text Analysis Conferences: http://www nist.gov/tac/about/index.html: 2008-nay) Mọi hội nghị, tạp chí khoa học liên quan Kdnuggets: http://www.kdnuggets.com/ 19 Sự cần thiết khai phá Web  Web gần gũi với người  Tạo môi trường xã hội ảo  Một phần quan trọng chuyển tải thơng tin lồi người từ Web  Phương tiện chuyển giao tri thức  Đặc thù khai phá Text Web  Web có bán cấu trúc  Kết nối không gian thời gian  Mỏ rộng giao lưu: diễn đàn, blog…  Sự tăng trưởng liệu Web  Tương tự liệu Text  Dữ liệu đa phương tiện 20  Hình minh họa tăng trưởng Web  http://news.netcraft.com/archives/category/web-server-survey/ (02/2011)  Khái niệm  Khai phá Web = Khai phá Text + WWW  Trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn Web Các chủ đề khai phá Web           Tìm kiếm thu hồi: Thu hồi tính hạng Phân tích đồ thị Web Khai phá cấu trúc Web Phân cụm Web Phân lớp Web Trích rút thơng tin, Quảng cáo tối ưu hóa Web Lọc cộng tác lọc nội dung Phân tích web log Khai phá sử dụng web Mạng xã hội Web Web ngữ nghĩa Khai phá quan điểm Web Các vấn đề hệ thống Web Reproduced from Ullman & Rajaraman with permission Một số đặc điểm khai phá Web    Web lớn để tổ chức thành kho liệu Tăng kích cỡ DW chậm nhiều tốc độ phát triển Web Độ phức tạp trang Web lớn  Các kiểu tổ chức  Các kiểu liệu  Web: nguồn tài ngun thơng tin có độ thay đổi cao  Tăng nhiều nhiều  Web phục vụ cộng đồng người rộng lớn đa dạng  Phản ánh toàn giới  Chỉ phần nhỏ thơng tin Web thực hữu ích  Đối với toàn cá nhân  Khai phá Web có lợi thế: bán cấu trúc, giàu thông tin (thẻ, liên kết, file log) 24 Nghiên cứu khai Web  Theo thống kê từ Google Scholar số viết:  Với cụm từ “Web Mining”:   Ở tiêu đề: Ở nơi: 2.680 (khoảng) 20.000 (khoảng)  Với cụm từ “Text Analysis”:   Ở tiêu đề: Ở nơi: 240 (khoảng) 4.300 (khoảng)  Với cụm từ “Search Engine”:   Ở tiêu đề: Ở nơi: 6.260 (khoảng) 414.000 (khoảng)  Với cụm từ “Image Search”:    Ở tiêu đề: Ở nơi: 890 (khoảng) 15.800 (khoảng) Nơi công bố tài liệu Khai phá Web  Đi kèm với XLNNTN khai phá Text  Kdnuggets: http://www.kdnuggets.com/  Mọi hội nghị, tạp chí khoa học liên quan 25 ... dung Giới thiệu khai phá text Giới thiệu khai phá web Giới thiệu khai phá text       Khái niệm Sự cần thiết khai phá text Đặc trưng khai phá text Các toán khai phá text Một ví dụ tốn khai phá. .. biểu khái niệm khai phá liệu  Nội dung  Khai phá text = Khai phá liệu + Xử lý ngôn ngữ tự nhiên - XLNNTN (Natural Language Processing: NLP)  Các toán chung khai phá liệu cho liệu đặc thù ... Web Phân cụm Web Phân lớp Web Trích rút thơng tin, Quảng cáo tối ưu hóa Web Lọc cộng tác lọc nội dung Phân tích web log Khai phá sử dụng web Mạng xã hội Web Web ngữ nghĩa Khai phá quan điểm Web

Ngày đăng: 08/05/2021, 19:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN