Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
628,5 KB
Nội dung
1 Đồ thị khoảng cách văn số ứng dụng Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội, Ngày 31/5/2014 KTLab May 7, 017 Nội dung • Đồ thị khoảng cách ứng dụng • Độ đo Google chuẩn ứng dụng • Tin học xã hội May 7, 017 Đồ thị khoảng cách: giới thiệu Charu C Aggarwal, Peixiang Zhao (2013) Towards graphical models for text processing Knowl Inf Syst 36(1): 1-21 Charu C Aggarwal Research Scientist, IBM T J Watson Research Center in Yorktown Heights, BSc IIT Kanpur (1993) PhD MIT (1996) Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research Division (2008), IBM Outstanding Technical Achievement (2009) Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery, ACM SIGKDD Explorations, and the Knowledge and Information Systems http://www.informatik.uni-trier.de/~ley/pers/hd/a/Aggarwal:Charu_C=: 60 tạp chí, 135 hội nghị, sách, … Peixiang Zhao Assistant Professor, Florida State Univ at Tallahassee Bsc (2001), MSc (2004), PhD (2007) HK, PhD (2012) UIUC http://www.informatik.uni-trier.de/~ley/pers/hd/z/Zhao:Peixiang.html”: tạp chí, 16 hội nghị Đồ thị khoảng cách: định nghĩa nghĩa C} Ví dụ, V = {từ C} \ {từ dừng} Với tài liệu D: “đồ thị khoảng cách bậc k” D C đồ thị G(C, D, k) = (N(C), A(D, k)) với N(C) tập đỉnh, A(D,k) tập cung N(C) = {nút v: v∈V v xuất D} ∀v∈V: xuất ≤ 01 lần N(C) Trong N(C): gọi “nút i” “từ i” D’ nhận từ D sau loại bỏ từ ∉V, giữ nguyên thứ tự từ Tập cung A(D,k) chứa cung (i ,j) có hướng từ nút i tới nút j từ i trước từ j với khoảng cách ≤ k từ D’ Cung (i, j) có trọng số m có nhiều m lần từ i xuất trước từ j với khoảng cách ≤ k D’ Phát biểu khác đôi chút so với báo Cho ngữ liệu C = {tài liệu miền ứng dụng} V ={từ có Đồ thị khoảng cách: ví dụ từ báo had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow” D’=“Mary little lamb, little lamb, little lamb, Mary little lamb, fleece white snow” Các đồ thị khoảng cách bậc 0,1,2: Bậc 0: từ đơn tự kết nối Bâc k+1: thêm cung thêm trọng số V = {từ tiếng Anh} \ {từ dừng} D lấy từ đồng dao “Mary had a little lamb” “Mary Đồ thị khoảng cách: tính chất Tính chất “thưa”: f(D): số lượng từ có nghĩa D’ kế bội n(D): số lượng từ phân biệt D’ số nút đồ thị |N(C)| ⇒ n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1) Chứng minh báo Đồ thị khoảng cách bậc không tương ứng với tài liệu chứa từ phân biệt đồ thị phẳng (planar) Tính đơn điệu D1 đoạn D2 ⇒ G(C, D1, k) đồ thị G(C, D2, k) Chứng minh báo Lưu ý: Ngược lại không “G(C, D1, k) đồ thị G(C, D2, k) không ⇒ D1 đoạn D2”: phức tạp cấu trúc nắm bắt từ đồ thị khoảng cách! Cực kỳ hữu ích cho truy hồi theo đoạn text xác: Truy hồi thông tin dựa đồ thị: xác định bao đóng tập văn cần tìm: hiệu trình diễn không gian vector đánh số theo từ khóa Tính phẳng tài liệu chứa từ phân biệt Đồ thị khoảng cách: tính chất Tính bảo tồn đoạn giao D1, D2 có xâu chung F ⇒ G(C, D1, k) G(C, D1, k) chia sẻ đồ thị G(C, F, k) Suy diễn trực tiếp từ tính đơn điệu Tìm kiếm tài liệu có đoạn chủ đề Giả thiết: Một chủ đề đặc trưng tập S gồm m từ khóa liên thông → xây dựng clique_có hướng_hai chiều chứa nút (từ) clique_có hướng_hai chiều: cặp nút tồn cung hai hướng (đồ thị đầy đủ) ∃ chu trình đơn nối đỉnh clique Tần số kết hợp giao theo cung clique với đồ thị G(C, D, k) cho biết số lần từ khóa tương ứng xuất D ⇒ hành vi cục chủ đề Tính chất xuất clique hai chiều Cho F1 clique hai chiều chứa m nút D tài liệu thuộc C Cho E giao theo cung tập cung G(C, D, k) chứa F1 Gọi q tổng tần số cung E q số lần từ khóa nút tương ứng với F1 xuất với khoảng cách ≤ k tài liệu ĐTKC: Xác định chủ đề khác S1, S2 : tập từ khóa tương ứng với chủ đề khác F1, F2: hai clique tương ứng với S1 S2 Gọi F12 clique chứa nút S1+S2 Xét E1 (D), E2 (D), E12 (D) giao theo cung G(C, D, k) với F1, F2, F12 E12 (D) bao đóng cung E1 (D) ∪ E2 (D) Tính cục chủ đề tần số cung E1(D), E2(D) lớn tần số cung E12(D)-(E1(D) ∪ E2(D)) nhỏ Bài toán xác định tính cục chủ đề Tím tài liệu D mà tần số theo cung (E1(D) ∪ E2(D)) lớn s1 tần số theo cung E12(D)-(E1(D) ∪ E2(D)) nhỏ s2 Xác định đoạn liên quan chủ đề khác ĐTKC: phương án vô hướng Đồ thị khoảng cách vô hướng bậc k tài liệu D theo C đồ thị G(C, D, k) = (N(D), A(D, k)): N(D) trường hợp có hướng A(D,k) tập cung tương tự trường hợp có hướng song tính hai chiều (về trước sau) Ví dụ, đồ thị khoảng cách vô hướng bậc tài liệu ví dụ trước: Đồ thị KC vô hướng nhận cách đổi cung có hướng thành vô hướng Đồ thị vô hướng giữ thông tin khoảng cách bỏ qua thông tin thứ tự Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii) Định nghĩa Đồ thị khoảng cách: ứng dụng KPDL Hai phương án áp dụng kỹ thuật cũ với thay biểu diễn túi từ biểu diễn đồ thị khoảng cách: dề dàng thi hành Dùng cho khai phá DL quản lý cấu trúc: tương tác dễ dàng phương pháp khai phá cấu trúc Độ phức tạp tính toán Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có Có thể làm chậm song không nặng nề 10 Đồ thị khoảng cách: ứng dụng KPDL Phân cụm Các thuật toán phân cụm lặp phân cấp.dựa “hạt giống” Thuật toán EM Phân lớp Phân lớp Bayes thơ ngây Phân lớp k-láng giềng gần phân lớp trọng tâm Phân lớp dựa luật Đánh số truy hồi entire structural fragments Tìm kiếm xác: đề cập Tìm kiếm gần Tìm kiếm đồ thị thường xuyên Phát đạo văn (Plagiarism detection) GA, GB đồ thị khoảng cách hai tài liệu MCG (GA, GB) đồ thị chung lớn hai tài liệu 11 Đồ thị khoảng cách: Một số bàn luận Khoảng cách Tính sau loại bỏ từ dừng ? Lý ? Nên tính khoảng cách giữ nguyên từ dừng Các hành động “từ khóa” Xây dựng đồ thị khoảng cách Mẫu tuần tự: Phân cụm Mẫu có thứ tự: Phát đồ thị thường xuyên Áp dụng cho toán xử lý văn Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn theo đồ thị khoảng cách, tính độ quan trọng, tương tự hai cầu … Thay nút số chủ đề Áp dụng cho phân lớp đa nhãn, đa thể văn Biểu diễn văn qua đồ thị khoảng cách Áp dụng tính chất cục chủ đề 12 Áp dụng tìm kiếm mẫu nhật ký kiện Áp dụng khai phá mẫu từ nhật ký kiện • Hai thách thức KPQT C2 Đối phó với nhật ký kiện phức tạp với đặc trưng đa [Manifesto12] Wil van der Aalst et al (2012) Process Mining Manifesto, BPM 2011 Workshops (Part I, LNBIP 99), pp 169–194 • Một số tài liệu nghiên cứu [Aalst13] Wil M P van der Aalst (2013) A General Divide and Conquer Approach for Process Mining FedCSIS 2013: 1-10 [BA12a] R P Jagadeesh Chandra Bose, Wil M P van der Aalst (2012) Process diagnostics using trace alignment: Opportunities, issues, and challenges Inf Syst 37(2): 117-141 [BAZP11]c R P Jagadeesh Chandra Bose, Wil M.P van der Aalst, Indre Zliobaite and Mykola Pechenizkiy (2011) Handling Concept Drift in Process Mining CAiSE 2011: 391-405 [Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven University of Technology, The Netherlands 13 dạng C4 Đối phó với sai lệch khái niệm ~ đối phó với nhật ký kiện lớn 14 Khai phá mẫu: Trừu tượng hóa kiện • Trừu tượng hóa kiện Abstractions of Events liệu kiện nội vết quy trình cụ thể hoặc/và có nhiều mức trừu tượng Xâu hành động cụ thể → hành động gắn với quy trình [Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven University of Technology, The Netherlands 15 Khai phá mẫu: Phân cụm vết • Phân cụm vết Trace Clustering Các vết có tính tương đồng [Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven University of Technology, The Netherlands 16 Khai phá mẫu: Tiến hóa quy trình • Tiến hóa quy trình Concept Drift Quy trình thay đổi theo thời gian Các vòng đời trình kinh doanh khác [Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven University of Technology, The Netherlands 17 Trừu tượng hóa trình kinh doanh [Smir11] Sergey Smirnov (2011) Business Process Model Abstraction PhD Thesis, The University of Potsdam 2 Khoảng cách Google chuẩn ứng dụng Các tài liệu liên quan Rudi Cilibrasi, Paul M B Vitányi (2004) The Google Similarity Distance “Automatic Meaning Discovery Using Google” CoRR abs/cs/0412098 Rudi Cilibrasi, Paul M B Vitányi (2007) The Google Similarity Distance IEEE Trans Knowl Data Eng 19(3): 370-383 Có 1036 citation Google Scholar Paul M B Vitányi (2012) Information Distance: New Developments CoRR abs/1201.1221 Andrew R Cohen, Paul M B Vitányi (2013) Normalized Google Distance of Multisets with Applications CoRR abs/1308.3177 Các tác giả Paul M B Vitányi: DBLP có 76 tạp chí, 69 hội nghị, 69 thông báo, … http://www.informatik.unitrier.de/~ley/pers/hd/v/Vit=aacute=nyi:Paul_M=_B=.html Rudi Cilibrasi: hội nghị, hội nghị, thông báo, http://www.informatik.uni-trier.de/~ley/pers/hd/c/Cilibrasi:Rudi.html 18 Khoảng cách Google chuẩn Lập luận Đối tượng nhận theo nghĩa đen từ: tổ chức gene ACGT chuột văn nội dung truyện Chiến tranh Hòa bình Lev Tolxtoi Đối tượng nhận theo tên gọi nó: “cấu tạo gene ACGT chuột” “văn CT&HB Lev Tolxtoi” ∃ đối tượng nhận biết tên “home” “red” mà chữ chưa nói điều Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ TAC: Hai thành phần (Track) TAC 2014 (http://www.nist.gov/tac/) Knowledge Base Population (KBP) Biomedical Summarization (BiomedSumm) Khoảng cách thông tin chuẩn Cho hai xâu x y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit CT tính ngắn sản xâu x, y., xy E(x,y) thực khoảng cách: ba tính chất 19 Khoảng cách Google chuẩn Lập luận Đối tượng nhận theo nghĩa đen từ: tổ chức gene ACGT chuột văn nội dung truyện Chiến tranh Hòa bình Lev Tolxtoi Đối tượng nhận theo tên gọi nó: “cấu tạo gene ACGT chuột” “văn CT&HB Lev Tolxtoi” ∃ đối tượng nhận biết tên “home” “red” mà chữ chưa nói điều Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ TAC: Hai thành phần (Track) TAC 2014 (http://www.nist.gov/tac/) Knowledge Base Population (KBP) Biomedical Summarization (BiomedSumm) Khoảng cách thông tin chuẩn Khoảng cách thông tin hai xâu x y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit CT tính ngắn sản xâu x, y., xy E(x,y) thực khoảng cách: ba tính chất Khoảng cách thông tin chuẩn: 20 Khoảng cách Google chuẩn Khoảng cách nén chuẩn Khoảng cách thông tin chuẩn chưa tính toán (uncomputable) Dùng chương trình nén liệu có sẵn để “thay K” Cho nén C: C(x) độ dài nén x Khoảng cách nén chuẩn 21 Khoảng cách Google chuẩn G(x), G(x,y) “mã hóa Google” x (x,y) x= {trang web chứa xâu x}; x∩y={trang web chứa xâu} Mã hóa Google 22 CÁM ƠN 22 KT-SISLAB