1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tổng quan khai phá dữ liệu và ứng dụng

55 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 0,94 MB

Nội dung

Luận văn tốt nghiệp Tổng quan khai phá liệu ứng dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU (DATAMING) VÀ KDD 1.1.1 Tại lại cần khai phá liệu (datamining) Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đoán lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không ? “Necessity is the mother of invention” - Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt [] Khá nhiều định nghĩa Data Mining đề cập phần sau, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức 1.1.2 Khai phá liệu gì? Khai phá liệu (datamining) định nghĩa trình chắt lọc hay khai phá tri thức từ lượng lớn liệu Một ví dụ hay sử dụng là việc khai thác vàng từ đá cát, Dataming ví cơng việc "Đãi cát tìm vàng" tập hợp lớn liệu cho trước Thuật ngữ Dataming ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thơ Có nhiều thuật ngữ dùng có nghĩa tương tự với từ Datamining Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích liệu/mẫu), data archaeoloogy (khảo cổ liệu), datadredging(nạo vét liệu), Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Khai phá liệu bước bảy bước trình KDD (Knowleadge Discovery in Database) KDD xem trình khác theo thứ tự sau:s LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Làm liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu liệu khơng cần thiết Tích hợp liệu: (data integration): trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Quá trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data), v.v Chuyển đổi liệu: Các liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu(data mining): Là bước quan trọng nhất, sử dụng phương pháp thơng minh để chắt lọc mẫu liệu Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (knowledge presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng Hình - Các bước Data Mining & KDD LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.1.3 Các chức khai phá liệu Data Mining chia nhỏ thành số hướng sau: • Mơ tả khái niệm (concept description): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn • Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v • Phân lớp dự đoán (classification & prediction): xếp đối tượng vào lớp biết trước Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta gọi phân lớp học có giám sát (học có thầy) • Phân cụm (clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học khơng giám sát (học khơng thầy) • Khai phá chuỗi (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao 1.1.4 Ứng dụng khai phá liệu Data Mining hướng tiếp cận thu hút nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng thực tiễn Chúng ta liệt kê số ứng dụng điển hình: • support) Phân tích liệu hỗ trợ định (data analysis & decision • Điều trị y học (medical treatment) • Text mining & Web mining • Tin-sinh (bio-informatics) • Tài thị trường chứng khoán (finance & stock market) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) • v.v 1.2 CƠ SỞ SỮ LIỆU HYPERTEXT VÀ FULLTEXT 1.2.1 Cơ sở liệu FullText Dữ liệu dạng FullText dạng liệu phi cấu trúc với thông tin gồm liệu dạng Text Mỗi tài liệu chứa thông tin vấn đề thể qua nội dung tất từ cấu thành tài liệu Ý nghĩa từ tài liệu khkông cố định mà tuỳ thuộc vào ngữ cảnh khác mang ý nghĩa khác Các từ tài liệu liên kết với theo ngơn ngữ Trong liệu văn liệu phổ biến nhất, có mặt khắp nơi thường xuyên bắt gặp tốn xử lý văn đặt lâu vấn đề khai phá liệu Text, có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn dẫn đường văn CSDL full_text dạng CSDL phi cấu trúc mà liệu bao gồm tài liệu thuộc tính tài liệu Cơ sở liệu Full_Text thường tổ chức môt tổ hợp hai thành phần: Một CSDL có cấu trúc thơng thường (chứa đặc điểm tài liệu) tài liệu CSDL Full-Text CSDL có cấu trúc chứa đặc điểm tài liệu Các tài liệu Nội dung cuả tài liệu lưu trữ gián tiếp CSDL theo nghĩa hệ thống quản lý địa lưu trữ nội dung Cơ sở liệu dạng Text chia làm hai loại sau: Dạng khơng có cấu trúc (unstructured): Những văn thông thường mà thường đọc hàng ngày thể dạng tự nhiên người LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com khơng có cấu trúc định dạng VD: Tập hợp sách, Tạp chí, Bài viết quản lý mạng thư viện điện tử Dạng nửa cấu trúc (semi-structured): Những văn tổ chức dạng cấu trúc không chặt chẽ ghi ký hiệu đánh dấu văn thể nội dung văn bản, ví dụ dạnh HTML, email, Tuy nhiên việc phân làm hai loại không thật rõ ràng, hệ phần mềm, người ta thường phải sử dụng phần kết hợp lại để thành hệ cá hệ tìm tin (Search Engine), tốn tìm kiếm văn (Text Retrieval), lĩnh vực qua tâm Chẳng hạn hệ tìm kiếm Yahoo, Altavista, Google tổ chức liệu theo nhóm thư mục, nhóm lại có nhiều nhóm nằm Hệ Altavista cịn tích hợp thêm chương trình dịch tự động dịch chuyển đổi sang nhiều thứ tiếng khác cho kết tốt 1.2.2 Cơ sở liệu HyperText Theo từ điển Đại học Oxford (Oxford English Dictionary Additions Series) Hypertext định nghĩa sau: Đó loại Text khơng phải đọc theo dạng liên tục đơn, đọc theo thứ tự khác nhau, đặc biệt Text ảnh đồ họa (Graphic) dạng có mối liên kết với theo cách mà người đọc khơng cần đọc cách liên tục Ví dụ đọc sách người đọc đọc trang từ đầu đến cuối mà nhảy cóc đến đoạn sau để tham khảo vấn đề họ quan tâm Như văn HyperText bao gồm dạng chữ viết không liên tục, chúng phân nhánh cho phép người đọc chọn cách đọc theo ý muốn Hiểu theo nghĩa thơng thường HyperText tập trang chữ viết kết nối với liên kết cho phép người đọc đọc theo cách khác Như ta làm quen nhiều với trang định dạng HTML, trang có liên kết trỏ tới phần khác trang trỏ tới trang khác, người đọc đọc văn dựa vào liên kết Bên cạnh đó, HyperText dạng văn Text đặc biệt nên bao gồm chữ viết liên tục (là dạng phổ biến chữ viết) Do khơng bị hạn chế tính liên tục HyperText, tạo dạng trình bày mới, tài liệu phản ánh tốt nội dung muốn diễn đạt Hơn người đọc chọn cho cách đọc phù hợp chẳng hạn sâu vào vấn đề mà họ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com quan tâm Sáng kiến tạo tậpc cá văn với trỏ trỏ tới văn khác để liên kết tập văn có mối quan hệ voiứ với cách thực hay hữu ích để tổ chức thông tin Với người viết, cách cho phép họ thoải mái loại bỏ băn khoăn thứ tự trình bày, mà tổ chức vấn đề thành phần nhỏ, sử dụng kết nối để mối liên hệ phần nhỏ với Với người đọc cách cho phép họ tắt mạng thơng tin định phần thơng tin có liên quan đến vấn đề mà họ quan tâm để tiêp tục tìm hiểu So sánh với cách đọc tuyến tính, tức đọc HyperText cung cấp cho giao diện để tiếp xúc với nội dung thông tin hiệu nhiều Theo khía cạnh thuật tốn học máy HyperText cung cấp cho hội nhìn phạm vi tài liệu để phân lớp nó, nghĩa có tính đến tài liệu có liên kết với Tất nhiên khơng phải tất tài liệu có liên kết đến có ích cho việc phân lớp, đặc biệt siêu liên kết đến nhiều loại tài liệu khác Nhưng chắn tồni tiềm mà người cần tiếp tục nghiên cứu việc sử dụng tài liệu liên kết đến trang để nâng cao độ xác phân lớp trang Có hai khái niệm HyperText mà cần quan tâm: Hypertext Document (Tài liệu siêu văn bản): Là tài liệu văn đơn hệ thống siêu văn Nếu tưởng tượng hệ thống siêu văn đồ thị, tài liệu tương ứng với nút Hypertext Link (Liên kết siêu văn bản): Là tham chiếu để nối tài liệu HyperText với tài liệu HyperText khác Các siêu liên kết đóng vai trị đường nối đồ thị nói HyperText loại liệu phổ biến nay, loại liệu có nhu cầu tìm kiếm phân lớp rấ lớn Nó liệu phổ biến mạng thông tin Internet CSDL HyperText với văn dạng “nửa cấu trúc” xuất thêm “thẻ “: Thẻ cấu trúc (tiêu đề, mở đầu, nội dung), thẻ nhấn trình bày chữ (đậm, nghiêng,…) Nhờ thẻ mà có thêm tiêu chuẩn (so với tài liệu fulltext) để tìm kiếm phân lớp chúng Dựa vào thẻ quy định trước phân thành độ ưu tiên khác nhaucho từ khóa chúng xuất vị trí khác Ví dụ tìm kiếm tài liệu có nội dung liên quan đến “people “ đưa từ khóa tìm kiếm “people”, tài liệu có từ khóa “poeple” đứng tiêu đề gần với yêu cầu tìm kiếm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một sơ đồ minh hoạ Hypertext Document nút Hypertext Link liên kết gia chỳng So sánh đặc điểm liệu Fulltext liệu trang web Mc dự trang Web l dang đặc biệt liệu FullText, có nhiều điểm khác hai loại liệu Một số nhận xét sau cho thấy khác liệu Web FullText Sự khác đặc điểm nguyên nhân dẫn đến khác khai phá hai loại liệu (phân lớp, tìm kiếm,…) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một số đối sánh đặc điểm liệu Fulltext với liệu trang trình bày [2] Trang web Văn thơng thường (Fulltext) Là dạng văn “nửa cấu trúc” Trong nội dung có phần tiêu đề có thẻ nhấn mạnh ý nghĩa từ cụm từ Văn thường dạng văn “phi cấu trúc” Trong nội dung khơng có tiêu chuẩn cho ta dựa vào để đánh giá Nội dung trang Web Nội dung văn thông thường đườn mô tả ngắn gọn, cô thường thường chi tiết đầy đủ đọng, có siêu liên kết cho người đọc đến nơi khác có nội dung liên quan Trong nội dung trang Web có Các trng văn thông thường không chứa siêu liên kết cho phép liên kết đến nội dung liên kết trang có nội dung liên trang khác với STT 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) Như đề cập trên, TextMining (Khai phá liệu văn bản) WebMining (Khai phá liệu Web) ứng dụng quan trọng Datamining Trong phần ta sâu vào toán 1.3.1 Các toán khai phá liệu văn Tìm kiếm văn a Nội dung Tìm kiếm văn trình tìm kiếm văn theo yêu cầu người dùng Các yêu cầu thể dạng câu hỏi (query), dạng câu hỏi đơn giản từ khóa Có thể hình dung hệ tìm kiếm văn xếp văn thành hai lớp: Một lớp cho văn thỏa mãn với câu hỏi đưa lớp không hiển thị văn không thỏa mãn Các hệ thống thực tế không hiển thị LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com mà đưa danh sách văn theo độ quan trọng văn tuỳ theo câu hỏi đưa vào, ví dụ điển hình máy tìm tin Google, Altavista,… b Quá trình Quá trình tìm tin chia thành bốn q trình : Đánh số (indexing): Các văn dạng thô cần chuyển sang dạng biểu diễn để xử lý Q trình cịn gọi q trình biểu diễn văn bản, dạng biểu diễn phải có cấu trúc dẽ dàng xử lý Định dạng câu hỏi: Người dùng phải mô tả yêu cầu lấy thông tin cần thiết dạng câu hỏi Các câu hỏi phải biểu diễn dạng phổ biến cho hệ tìm kiếm nhập vào từ khóa cần tìm Ngồi cịn có phương pháp định dạng câu hỏi dạng ngôn ngữ tự nhiên dạng ví dụ, dạngnày cần có kỹ thuật xử lý phức tạp Trong hệ tìm tin đại đa số dùng câu hỏi dạng từ khóa So sánh: Hệ thống phải có so sánh rõ ràng hoàn toàn câu hỏi câu hỏi người dùng với văn đượcl ưu trữ CSDL Cuối hệ đưa định phân loại văn có độ liên quan gầnvới câu hỏi đưa vào thứ tự Hệ hiển thị tồn văn phần văn Phản hồi: Nhiều kết trả ban đầu không thỏa mãn yêu cầu người dùng, cần phải có qua trình phản hồi để người dùng có thểt hay đổi lại nhập yêu cầu Mặt khác, người dùng tương tác với hệ văn thỏa mãn yêu cầu hệ có chức cập nhậu văn Q trình gọi q trình phản hồi liên quan (Relevance feeback) Các cơng cụ tìm kiếm chủ yếu tập trung nhiều vào ba trình đầu, cịn phần lớn chưa có q trình phản hồi hay xử lý tương tác người dùng máy Quá trình phản hồi nghiên cứu rộng rãi riêng trình tương tác giao diện người máy xuất hướng nghiên cứu interface agent Phân lớp văn bản(Text Categoization) a Nội dung Phân lớp văn xem trình gán văn vào hay nhiều văn xác định từ trước Người ta phân lớp văn mộtc ách thủ công, tức đọc văn gán vào lớp Cách tốn nhiều thời gian công sức nhiều văn khơng khả thi Do mà LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong ®ã: |V| : số lợng từ tập V Fj : tõ kho¸ thø j tõ vùng TF(Fj | Doc) : Tần xuất từ Fj tài liệu Doc (bao gồm từ đồng nghĩa) TF(Fj | C) : Tần xuất từ Fj lớp C (số lần Fj xuất tất tài liệu thuôc lớp C) P(Fj | C) : Xác suất có điều kiện để từ Fj xuất tài liệu lớp C Cơng thức F(Fi | C) tính sử dụng ước lượng xác suất Laplace Sở dĩ có số tử số công thức để tránh trường hợp tần suất từ Fi lớp C 0, Fi không xuất lớp C Để giảm phức tạp tính tốn giảm thời gian tính tốn, ta để ý thấy rằng, khơng phải tài liệu Doc cho chứa tất từ tập từ vựng V Do đó, TF(Fi | DOC) =0 từ Fi thuộc V không thuộc tài liệu Doc, nên ta có, (P(Fj | C))TF(Fj, Doc) = Như công thức (1) viết lại sau: Với: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Như trình phân lớp khơng dựa vào tồn tập từ vựng mà dựa vào từ khóa xuất tài liệu Doc 3.3.2 Thuật toán k-người láng giềng gần ThuËt toán hoạt động không dựa vào tập từ vựng Tuy nhiªn, nã vÉn sư dơng ng−ìng CtgTsh, thực theo bước đề cập Đó tiến hành ngẫu nhiên k tài liệu tính xác suất p(C|Doc) dựa giống tài liệu Doc k tài liệu chọn Xác suất p(C| Doc) tính theo cơng thức sau: Trong ®ã: n : Số lớp k : Số tài liệu chọn để so sánh P(Ci | Dj ) : Có giá trị 1, cho biết tài liệu Dj có thuộc lớp Ci khơng Sở dĩ có giá trị tài liệu thuộc lớp Sm(Doc,Dj) xác định mức độ giống tài liệu Doc với tài liệu chọn Dj , tính cos góc hai Vector biểu diễn taì liệu Doc tài liệu chọn Dj Cách biểu diễn tài liệu thuật tốn hồn tồn tương tự thuật tốn phân lớp Bayes thứ nhất, nghĩa gồm Fi từ khóa xuất Xi tương ứng Trong c«ng thøc (4): Xi xuất từ khoá thứ i (dựa số từ đồng nghĩa xuất tài liệu Doc) Yi tần xuất từ thứ i (dựa số từ đồng nghĩa xuất tài liệu Di) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.3 Phân lớp dựa vào định Học định phươgn pháp sử dụng rộng rãi cho việc học quy nạp từ mẫu lớn Đây phương pháp xấp xỉ hàm mục tiêu có giá trị rời rạc Mặt khác, định cịn chuyển sang dạng biểu diễn tương đương dạng tri thức luật If-then Trong thuật toán học định ID3 C4.5 hai thuậta tốn tiếng Sau nội dung thuật toán ID3 ID3 (Example, Target attributes, Attributes) 1.Tạo nút gốc Root cho định Nếu toàn Examples ví dụ dương, tả lại Root nút đơn, với nhãn + Nếu toàn Examples ví dụ âm, trả lại Root nút đơn, với nhãn - Nếu Attributes rỗng trả lại Root nút đơn với gàn nhãn giá trị phổ biến Target_attribute Example Ngược lại Begin 5.1 A

Ngày đăng: 01/11/2022, 20:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w