1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÀI GIẢNG KHAI PHÁ dữ LIỆU nội dung bổ sung về khai phá dữ liệu

105 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 105
Dung lượng 6,08 MB

Nội dung

BÀI GIẢNG KHAI PHÁ DỮ LIỆU Nội dung bổ sung Khai phá liệu Nội dung Khai phá liệu: Học suốt đời Khai phá quy trình Một số tài nguyên khai phá liệu GIỚI THIỆU VỀ HỌC MÁY SUỐT ĐỜI Nguồn tài liệu  Sách   [Chen16[ Zhiyuan Chen and Bing Liu Lifelong Machine Learning Morgan & Claypool Publishers, November 2016 [Thrun96] Sebastian Thrun Explanation-Based Neural Network Learning: A Lifelong Learning Approach Springer US, 1996  Bài trình bày   Zhiyuan Chen and Bing Liu Lifelong Machine Learning in the Big Data Era A IJCAI 2015 Tutorial 130 Zhiyuan Chen, Estevam Hruschka, Bing Liu Lifelong Machine Learning and Computer Reading the Web A KDD-2016 Tutorial 217  DS&KTLab: A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification ACIIDS 2018  Trang Web    https://www.cs.uic.edu/~liub/lifelong-learning.html Zhiyuan Chen https://www.cs.uic.edu/~liub/lifelong-learning.html Bing Liu http://lifelongml.org/ Website on lifelong machine learning Hình ảnh Trường thu – đơng Quảng Bình Hình ảnh Trường thu – đơng Quảng Bình Tại học máy suốt đời? - Học máy truyền thống: hạn chế Học máy suốt đời: diện cộng đồng Một dự án học máy suốt đời Học máy truyền thống (ML1.0)  Thành công  Học máy thống kê: nhiều thành công đáng ghi nhận  Hạn chế     Học máy lập: xem xét tốn học máy Không thừa kế ”kinh nghiệm” từ học trước Không thể đáp ứng “học tựa người” Yêu cầu tập ví dụ huấn luyện đủ lớn  Yêu cầu   “học tựa người” Chỉ cần tập ví dụ nhỏ Học suốt đời (ML2.0): hành vi trí tuệ  Nghiên cứu trí tuệ tự nhiên ln thời  Một số hành vi trí tuệ liên quan tới học    Học từ kinh nghiệm áp dụng tri thức từ kinh nghiệm Giải vấn đề thiếu thông tin quan trọng Xử lý thao tác với “biểu tượng”  Học máy suốt đời     Thế hệ học máy thứ hai (ML2.0) Học sử dụng tri thức từ kinh nghiệm, đặc biệt miền văn Giải thách thức tập ví dụ huấn luyện lớn Vấn đề: Chọn tri thức học để giải toán Học suốt đời: nguồn trí tuệ [Poole17]  Sinh học   Tiến hóa lồi người Sống sót nhiều mơi trường sống khác  Văn hóa   Cung cấp ngôn ngữ Các công cụ hữu dụng, khái niệm hữu dụng, thông thái từ cha mẹ giáo viên truyền tới  Học suốt đời    Con người học hỏi suốt đời Tích lũy tri thức kỹ Học nhanh hiệu [Poole17] David L Poole, Alan K Mackworth Artificial intelligence foundations of computational agents (2 nd edition) Cambridge University Press, 2017 http://artint.info/html/ArtInt_4.html 10 Phát mơ hình quy trình  Là toán thứ khai phá quy trình  Input: Nhật ký kiện  Output: Mơ hình quy trình  Bài tốn thực phát mơ hình quy trình dựa vào thơng tin nhật ký kiện mà không sử dụng thông tin tiền nghiệm  Mơ hình quy trình biểu diễn ngơn ngữ mơ hình hóa  Có nhiều loại ngơn ngữ mơ hình hóa khác (BPMN, BPEL, UML, Petri-net,…)  Petri-net thường sử dụng để mơ hình hóa quy trình chuyển đổi sang mơ hình BPMN, PBEL, UML,… khác 91 Phát quy trình biên dịch ngược  Biên dịch ngược     Decompiling/Reverse Engineering Phiên chương trình đích → phiên chương trình nguồn Bài tốn khó Mất thơng tin biên dịch ngược Một số tài liệu liên quan  Phát quy trình      Phiên mơ hình quy trình thi hành → mơ hình quy trình (ngơn ngữ mơ hình hóa) “Lập lại sơ đồ khối” từ biên chạy chương trình đích Đầu vào: khơng chương trình đích, tập trường hợp thi hành chương trình “tên lệnh” giá trị ghi ? thi hành “một lệnh” không máy mà nhiều người [Wang10] W Wang Reverse engineering: technology of reinvention CRC, 2010 [Kadavy11] David Kadavy Design for Hackers: Reverse Engineering Beauty Wiley, 2011 [Alazard13] Daniel Alazard Reverse Engineering in Control Design Wiley-ISTE, 2013 [Nolan12] Godfrey Nolan Decompiling Android Apress, 2012 [Dang14] Bruce Dang, Alexandre Gazet, Elias Bachaalany, Sebastien Josse Practical Reverse Engineering x86, x64, ARM, Windows Kernel, Reversing Tools, and Obfuscation Wiley, 2014 92 Tiếp cận hai giai đoạn  Mơ hình hai giai đoạn+ K/phá khía cạnh bổ sung    Tinh chế NKSK đầu vào→phát mơ hình→khía cạnh bổ sung Mơ hình hai giai đoạn: Tinh chế NKSK đầu vào → phát mô hình Trình bày: Phát mơ hình→Tinh chế NKSK đầu vào→KC BS [Bose12] R P Jagadeesh Chandra Bose Process Mining in the Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven University of Technology, The Netherlands, 2012 93 Tiền xử lý NKSK: T/tượng hóa hoạt động [Bose09] R P Jagadeesh Chandra Bose, Wil M P van der Aalst Abstractions in Process Mining: A Taxonomy of Patterns BPM 2009: 159-175, 2009 94 Tiền xử lý NKSK: Trôi khái niệm  Trôi khái niệm khai phá quy trình  Trơi đột ngột (sudden): thay đổi lớn, trôi dần (gradual): tiếp cận nhập pha, trôi định kỳ (Recurring): theo mùa kinh doanh, trôi gia tăng (Incremental): thay đổi trì [Bose14] R P Jagadeesh Chandra Bose, Wil M P van der Aalst, Indre Zliobaite, Mykola Pechenizkiy Dealing With Concept Drifts in Process Mining IEEE Trans Neural Netw Learning Syst 25(1): 154-171, 2014 [Martjushev15] J Martjushev, R P Jagadeesh Chandra Bose, Wil M P van der Aalst Change Point Detection and Dealing with Gradual and Multi-order Dynamics in Process Mining BIR 2015: 161-178 95 95 Trực quan mơ hình quy trình Mở rộng mơ hình bổ sung khía cạnh: khía cạnh tổ chức (organizational perspective, “What are the organizational roles and which resources are performing particular activities?”), khía cạnh trường hợp (case perspective, “Which characteristics of a case influence a particular decision?”) khía cạnh thời gian (time perspective, “Where are the bottlenecks in my process?”) [Aalst11] WMP Van der Aalst (2011) Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011 [Aalst12] Wil M P van der Aalst: Process Mining: Overview and Opportunities ACM Trans Management Inf Syst 3(2): (2012) 96 Kiểm tra phù hợp Cycle Diagram  Input: BÀI TOÁNContents KIỂM TRA SỰ PHÙ HỢP - Nhật ký kiện (Event Log) - Mơ hình quy trình (Model)  Output: Các độ đo phù hợp  Ứng dụng: • Xem xét chất lượng mơ hình quy trình • Để xác định trường hợp chệch hướng hiểu chúng có hành vi chung • Để xác định đoạn quy trình mà hầu hết xảy lệch hướng • Cho mục đích kiểm tốn, … 97 Tài ngun KPDL: kiểu cơng cụ   Data mining suites (DMS): Gói chứa nhiều phương pháp Business intelligence packages (BIs): Không tập trung chuyên KPDL mà tới chức KPDL bản, đặc biệt thống kê ứng dụng kinh doanh  Mathematical packages (MATs): Không tập trung chuyên KPDL mà tới tập lớn mở rộng thuật toán thủ tục trực quan hóa  Integration packages (INTs): gói mở rộng nhiều thuật tốn nguồn mở khác nhau/phần mềm độc lập (chủ yếu  EXT: tiện ích bổ sung nhỏ cho công cụ khác Excel, Matlab, R… với chức hạn chế song hữu 98 dựa Java) dụng     Data mining libraries (LIBs): thực thi phương pháp KPDL gói chức Specialties (SPECs): tương tự LIB song gồm nhóm phương pháp chuyên biệt (mạng nơron… RES: thường thi hành lần thuật tốn mới, cách tân Solutions (SOLs): nhóm công cụ tùy biến cho lĩnh vực ứng dụng hẹp khai thác văn (GATE), xử lý hình ảnh (ITK, ImageJ) 8/4/20 Ralf Mikut, Markus Reischl (2011) Data mining tools, Wiley Interdisc Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011) Tài nguyên KPDL: Công cụ TM Data mining suites BI packages Mathematical packages Integration packages Specialties 99 RES 8/4/20 Ralf Mikut, Markus Reischl (2011) Data mining tools, Wiley Interdisc Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011) 100 Tài nguyên KPDL: Công cụ TM BI packages Mathematical packages Integration packages Specialties 8/4/20 RES Data mining suites Ralf Mikut, Markus Reischl (2011) Data mining tools, Wiley Interdisc Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011) Tài nguyên KPDL: Công cụ nguồn mở Data mining suites BI packages 101 Mathematical packages Integration packages Specialties RES 8/4/20 Ralf Mikut, Markus Reischl (2011) Data mining tools, Wiley Interdisc Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011) Tài nguyên KPDL: Công cụ nguồn mở Data mining suites BI packages Mathematical packages Integration packages Specialties 102 RES 8/4/20 Ralf Mikut, Markus Reischl (2011) Data mining tools, Wiley Interdisc Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011) 103 Tài nguyên KPDL: Dữ liệu mẫu 8/4/20 Kho chứa liệu nhóm học máy University of California, Irvine – UCI (UC Irvine Machine Learning Repository) http://archive.ics.uci.edu/ml/ (11/2015) 104 http://kdd.org/ : Trang web công đồng DM 8/4/20 105 http://kdd.org/awards/sigkdd-dissertation-award Winner: Mining Latent Entity Structures From Massive Unstructured and Interconnected Data  Chi Wang (student) and Jiawei Han (advisor) at University of Illinois at Urbana-Champaign Runner-up: Modeling Large Social Networks in Context  Qirong Ho (student) and Eric Xing (advisor) at Carnegie Mellon University 8/4/20 Runner-up: Computing Distrust in Social Media  Jiliang Tang (Student) and Huan Liu (Advisor) at Arizona State University Định hướng Khóa luận đại học K56: Thái Thị Hồi, Nguyễn Quỳnh Nga, Mai Cơng Đạt .. .Nội dung Khai phá liệu: Học suốt đời Khai phá quy trình Một số tài nguyên khai phá liệu GIỚI THIỆU VỀ HỌC MÁY SUỐT ĐỜI Nguồn tài liệu  Sách   [Chen16[ Zhiyuan... (i) liệu gốc, (ii) kết trung gian, (iii) mơ hình/mẫu kết học  Người dùng định cần giữ lại để giúp việc học tương lai  Bộ khai phá siêu tri thức  Khai phá siêu tri thức từ PIS MKS (siêu khai phá: ... toán Bộ khai phá tri thức toán (Task knowledge miner: TKM): dùng tri thức thô/thông tin từ KB để khai phá/ xác định tri thức phù hợp toán Cần tri thức đặc tả toán tri thức tổng quát khai phá từ

Ngày đăng: 04/08/2020, 00:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w