Khai thác các dữ liệu phức tạp
11KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI I I I 6666KHAI THÁC DỮLIỆU PHỨC TẠP 23NỘI DUNG1.Text mining2.Web mining4TEXT MININGText mining : Một nhánh của khai thác dữ liệu Mục đích : tìm kiếm và rút trích tri thức từ tàiliệu văn bảnVí dụ : Lọc email Đi chiu lý lch cá nhân ( tìm vic) vi cácchc v còn trng Tìm mối tương tác giữa protein trong các tàiliệu sinh học 35TEXT MININGCSDL tài liệu Gần 90% dữ liệu trên thế giới được lưu trữdưới dạng không cấu trúc hoặc bán cấutrúc. Kỹ thuật truy vấn thông tin truyền thống trởnên không phù hợp với tốc độ tăng nhanh sốlượng DL tài liệu.Công nghệ xử lý văn bản pháttriển mạnhPhần cứng rẻ6TEXT MININGCác lĩnh vực liên quan đến text mining Xử lý ngôn ngữ tự nhiên ( NLP) Rút trích thông tin ( information extraction) Truy vấn thông tin ( inforamtion retrival) Web mining Data mining chuẩnText mining = Data mining ( áp dụngcho dữ liệu văn bản ) + Language Engineering 47TEXT MININGXử lý ngôn ngữ tự nhiên (NLP) : Mục đích : hiểu ngôn ngữ tự động Không khả thi Phân tích văn bản : Sự đồng nghĩa Nhận dạng cụm từ. Mối liên kết ngữ nghĩaTruy vấn thông tin (IR): Thông tin tổ chức thành các tư liệu Vấn đề của truy vấn thông tin : xác định cáctài liu liên quan dựa trên yêu cầu ngườidùng như từ khóa hoặc tài liệu mẫu.8TRUY VẤN THÔNG TINHệ thống IR thông thường Danh mục trực truyến của thư viện Hệ thống quản lý tài liệu trực tuyếnTruy vn thông tin <> H thng CSDL Một số vấn đề của CSDL không tồn tại trong lĩnh vực IR như cập nhật, quản lý giao dịch, đối tượng phức tạp. Một số vấn đề của IR không được quan tâm trong hệ quảntrị CSDL như tài liệu không cấu trúc, tìm kiếm tương đốidựa trên từ khoá liên quanCác phương pháp truy vấn thông tin : Truy vấn dựa trên từ khóa Truy vấn dựa trên sự giống nhau Latent Semantic Indexing 59TEXT MININGRút trích thông tin (IE) : Cho CSDL văn bản tài liệu và câu truy vấn Yêu cầu : Tìm các câu có thông tin liên quan đến yêucầu của người dùng ( thực thể, thuộc tính, mối quan hệ ) Rút ra các thông tin liên quan và loi bcác thông tin không liên quan Liên kết các thông tin liên quan và xuất ratheo định dạng10PHÂN LOẠI TEXT MININGPhân loại tài liệu :Kỹ thuật : cây quyết định, Naïve Bayesian, Support Vector Machine,…Gom cụm tài liệu : Gom cụm tài liệu chứa thông tin từ nguồn phổbiến Gom cụm tài liệu bởi tác giảTổng hợp tài liệu : tìm thông tin quan trọngnhất từ các nguồn tài liệu và tạo ra bảntóm tắt cho người dùng 611PHÂN LOẠI TEXT MININGDự đóan xu hướng : xác định các chủ đề đangvà sẽ quan tâm và có íchVí dụ : Tìm xu hướng bán hàng thông qua sản phẩmvà mối liên hệ của sự xuất hiện tên công ty trên cácbài báo kinh tếDự án COE : xác định xu hướng trong các tài liệukhoa học, tin học và sinh họcPhân tích mối kết hợp dựa trên từ khóaPhát hiện sự bất bình thườngPhân tích siêu văn bản http://www.kdnuggets.com/software/text.html12NỘI DUNG1.Text mining2.Web mining 713WORLD WIDE WEB WWW là trung tâm dịch vụ thông tin toàn cầukhổng lồ, phân bố rộng khắp : Dịch vụ thông tin: tin tức, quảng cáo, thông tin kháchhàng, quản lý tài chính, giáo dục, hành chính, e-commerce, … Thông tin siêu liên kết Thông tin truy cập và sử dụngThách thức Quá lớn đối với nhà kho DL và DM WWW cung cấp nguồn DL dồi dào cho khai thácDL Qúa phức tạp và không đồng nhất : không có chuẩnvà không có cấu trúc14WORLD WIDE WEB Phát triển và thay đổi liên tục Nhiều dạng người sử dụng Chỉ có một phần nhỏ thông tin trên Web là thật sự liên quan và hữu ích 99% thông tin trên Web không có ích cho99% người sử dụng Web Làm thế nào để tìm được trang Web chấtlượng cao cho một vấn đề cụ thể? 815Web search enginesDựa trên chỉ mục (index): tìm kiếm, đánhchỉ mục trang Web và xác định và lưu trữdanh sách khổng lồ các từ. Hỗ trợ xác định vị trí trang Web chứa từkhóaTồn tại : Một chủ đề có thể chứa hàng trăm, hàng nghìnvăn bản Nhiều tài liệu liên quan nhiều đến chủ đềnhưng lại không chứa từ khóa ( tính nhiềunghĩa) 16WEB MININGWeb mining - Nhiều thách thứcTìm kiếm : Mẫu truy cập Web Cấu trúc Web Nội dung động / tĩnh của Web Web mining = Data mining ( áp dụng chotài liệu Web và các dịch vụ)+ Web technology http://www.kdnuggets.com/solutions/web-mining.html 917PHÂN LOẠI WEB MINING Web Content Mining : Tìm tri thức từ nội dung Web ( nhiều loại dữ liệunhư tài liệu, hình ảnh, audio, video, hyperlinks, …) Web Structure Mining : Tìm các mô hình nằm dưới các cấu trúc liên kếtcủa Web Web Usage Mining : Tìm các tri thức từ hành vi và quá trình sử dụngweb của người dùng18Web MiningWeb StructureMiningWeb ContentMiningWeb PageContent MiningSearch ResultMiningWeb UsageMiningGeneral AccessPattern TrackingCustomizedUsage TrackingPHÂN LOẠI WEB MINING 1019Web MiningWeb StructureMiningWeb ContentMiningWeb Page Content MiningWeb Page Summarization WebLog (Lakshmanan et.al. 1996),WebOQL(Mendelzon et.al. 1998) …:Web Structuring query languages; Can identify information within given web pages •Ahoy! (Etzioni et.al. 1997):Uses heuristics to distinguish personal home pages from other web pages•ShopBot (Etzioni et.al. 1997): Looks for product prices within web pagesSearch ResultMiningWeb UsageMiningGeneral AccessPattern TrackingCustomizedUsage TrackingPHÂN LOẠI WEB MINING20Web MiningWeb UsageMiningGeneral AccessPattern TrackingCustomizedUsage TrackingWeb StructureMiningWeb ContentMiningWeb PageContent MiningSearch Result MiningSearch Engine Result Summarization•Clustering Search Result (Leouskiand Croft, 1996, Zamir and Etzioni, 1997): Categorizes documents using phrases in titles and snippetsPHÂN LOẠI WEB MINING [...]... MINING 1 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : NGUYỄN HOÀNG TÚ ANH 2 B BB BÀ ÀÀ ÀI I I I 6 66 6 KHAI THÁC DỮ LIỆU PHỨC TẠP 5 9 TEXT MINING Rút trích thơng tin (IE) : Cho CSDL văn bản tài liệu và câu truy vấn Yêu cầu : Tìm các câu có thơng tin liên quan đến yêu cầu của người dùng ( thực thể, thuộc tính, mối quan hệ ) Rút ra các thông tin liên quan và loi b các thông tin... thông tin không liên quan Liên kết các thông tin liên quan và xuất ra theo định dạng 10 PHÂN LOẠI TEXT MINING Phân loại tài liệu : Kỹ thuật : cây quyết định, Naïve Bayesian, Support Vector Machine,… Gom cụm tài liệu : Gom cụm tài liệu chứa thông tin từ nguồn phổ biến Gom cụm tài liệu bởi tác giả Tổng hợp tài liệu : tìm thơng tin quan trọng nhất từ các nguồn tài liệu và tạo ra bản tóm tắt cho người... quảng cáo, thông tin khách hàng, quản lý tài chính, giáo dục, hành chính, e- commerce, … Thông tin siêu liên kết Thông tin truy cập và sử dụng Thách thức Quá lớn đối với nhà kho DL và DM WWW cung cấp nguồn DL dồi dào cho khai thác DL Qúa phức tạp và không đồng nhất : khơng có chuẩn và khơng có cấu trúc 14 WORLD WIDE WEB Phát triển và thay đổi liên tục Nhiều dạng người sử dụng Chỉ có... khổng lồ các từ. Hỗ trợ xác định vị trí trang Web chứa từ khóa Tồn tại : Một chủ đề có thể chứa hàng trăm, hàng nghìn văn bản Nhiều tài liệu liên quan nhiều đến chủ đề nhưng lại không chứa từ khóa ( tính nhiều nghĩa) 16 WEB MINING Web mining - Nhiều thách thức Tìm kiếm : Mẫu truy cập Web Cấu trúc Web Nội dung động / tĩnh của Web Web mining = Data mining ( áp dụng cho tài liệu Web và các dịch . 1 1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI I I I 666 6KHAI THÁC DỮLIỆU PHỨC TẠP 23NỘI DUNG1.Text. vi các phươngpháp khai m. Khai thác tài liệu vượt xa truy vấn thông tin dựa trên từkhóa. Khai thác tri thức từ DL nửa cấu trúc bằng cácphương pháp như