Bài giảng Khai phá dữ liệu: Chương 2 Phát hiện tri thức từ dữ liệu, cung cấp cho người học những kiến thức như: Công nghệ tri thức; Quản lý tri thức; Chuyển đổi meta-knowledge; Bài toán phát hiện tri thức từ dữ liệu; Một số nội dung liên quan. Mời các bạn cùng tham khảo!
Chương Phát tri thức từ liệu Nội dung Công nghệ tri thức Quản lý tri thức Chuyển đổi meta-knowledge Bài toán phát tri thức từ liệu Một số nội dung liên quan DM DW 73 Công nghệ tri thức Vai trò CNTT kinh tế Nghịch lý tính hiệu CNTT Luận điểm CARR Bản chất vai trò CNTT kinh tế Kinh tế tri thức Khái niệm kinh tế tri thức Bốn cột trụ kinh tế tri thức Các yếu tố đầu vào cốt lõi kinh tế tri thức: R&D, giáo dục đại học, phần mềm Cơ Công nghệ tri thức Khái niệm công nghệ tri thức Nội dung công nghệ tri thức DM DW 74 Vai trò CNTT Nghịch lý hiệu CNTT Robert Solow, nhà kinh tế giải thưởng Nobel, có nhận định “chúng ta nhìn thấy máy tính nơi ngoại trừ thống kê hiệu quả“ (1987) Căn cứ: Thống kê hiệu kinh tế (theo lý thuyết kinh tế cổ điển) đầu tư CNTT Luận điểm CARR “CNTT không quan trọng”: IT does not matter ! Nhận đinh luận điểm CARR Vai trò chất CNTT kinh tế Hệ thống tác nghiệp, điều hành Hệ thống phát tri thức DM DW 75 Nghịch lý hiệu “Nghịch lý hiệu quả“: Một xung đột kỳ vọng với thống kê Mối quan hệ IT hiệu quả: nhiều tranh luận song hiểu biết hạn chế • Năng lực máy tính đưa vào kinh tế Mỹ tăng bậc hai độ lớn từ năm 1970 • Hiệu quả, đặc biệt khu vực dịch vụ đình trệ Cho hứa hẹn khổng lồ IT tới mở “cuộc cách mạng cơng nghệ lớn mà lồi người có" (Snow, 1966), • Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng cách hiển nhiên: “Khơng, máy tính khơng làm tăng hiệu quả, không hầu hết thời gian" (Economist, 1990) Erik Brynjolfsson The Productivity Paradox of Information Technology: DW Review and Assessment , Published in Communications of the ACM, DM December, 1993; and Japan Management Research, June, 1994 (in Japanese)76 Toàn kinh tế Mỹ: nghịch lý hiệu Sự không tương quan tăng GNP Giai đoạn Chi phí cho máy tính (%GNP) Tăng GNP hàng năm 1960s 0.003 4.50% 1970s 0.05 2.95% 1980s 0.3 2.75% 1990s 3.1 2.20% DM DW 77 Nghịch lý hiệu quả: mức công ty Trái: Khơng có quan hệ đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều ! Phải: Có 90,6 % số công ty giá thành CNTT lớn giá thu hồi DW vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ? DM 78 http://www.strassmann.com/pubs/cf/cf970603.html Nghịch lý hiệu quả: mức cơng ty tài Có quan hệ “tỷ lệ thuận” đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung) cơng tyDW DM tài 79 Phân tích nghịch lý hiệu E Brynjolfsson [Bryn93]: không nghịch lý hiệu Lỗi đo lường từ công thức tính hiệu kinh tế cổ điển: Biến đầu vào, biến đầu đo lường biến Đầu tư CNTT có độ trễ phát huy hiệu 2-3 năm Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty đầu tư – công ty khác hưởng lợi Sai lầm quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời Cơng thức tính hiệu kinh tế DM DW 80 Luận điểm G Carr: IT does'n matter ! Nicholas G Carr IT does'n matter! HBR at Large, May 2003: 41-49 CNTT xuất khắp nơi tầm quan trọng chiến lược giảm Cách tiếp cận đầu tư quản lý CNTT cần phải thay đổi đáng kể ! Khi tài nguyên trở thành chất để cạnh tranh không quan trọng cho chiến lược, rủi ro tạo trở thành quan trọng lợi mà cung cấp Với hội đạt lợi chiến lược từ CNTT nhanh chóng biến mất, nhiều cơng ty cần có nhìn nghiêm khắc đầu tư vào CNTT quản lý hệ thống họ Carr đưa ba quy tắc hướng dẫn cho tương lai: phủ nhận vai trò chiến lược CNTT ! Nicholas G Carr The end of corporate computing, MIT Sloan Management Review, Spring 2005: 67-73 DW Thuộc 100 người có tên nhắc đến nhiều ! DM 81 Bài toán phát tri thức Nội dung KDD DM Khai phá liệu phát tri thức CSDL toán “kinh doanh”, toán “chiến lược” mà khơng phải tốn cơng nghệ Khi nên khai phá liệu Ví dụ: Chương sách Data Mining: Methods and Tools, 1998 DM DW 109 Mơ hình vịng khai phá liệu DN’98 Mơ hình năm 1998 DM DW 110 Mơ hình vịng khai phá liệu DN’98 • Xác định mục tiêu kinh doanh Bắt đầu với nhiều ba mục tiêu kinh doanh để nghiên cứu có tính tập trung, • Định danh liệu doanh nghiệp chứa thông tin liên quan tới mục tiêu kinh doanh xác định, • Khởi tạo tập liệu mẫu chứa thơng tin liên quan, • Định danh chun gia miền lĩnh vực làm việc với nhóm thực nghiệm hệ thống phát tri thức, • Khởi tạo liệu cho lực tính tốn làm chủ liệu khảo sát thích hợp với cơng cụ phát tri thức phù hợp mục tiêu kinh doanh, • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá liệu xác nhận công cụ thích hợp với mục tiêu kinh doanh, • Trích chọn quan hệ mẫu từ tập liệu kinh doanh, • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá liệu để xác định quan hệ mẫu thực liên quan tới mục DW DM tiêu kinh doanh 111 Chuẩn công nghiệp khai phá liệu CRISP-DM Các pha mơ hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining) “Hiểu kinh doanh”: hiểu toán đánh giá Thi hành sau tham chiếu kết với “hiểu kinh doanh” CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007 DW DM ) Nguồn: http://www.crisp-dm.org/Process/index.htm (13/02/2011 112 Chuẩn cơng nghiệp khai phá liệu CRISP-DM • Hiểu kinh doanh (Business understanding) tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh chuyển đổi tri thức thành định nghĩa toán khai thác liệu kế hoạch sơ thiết kế để đạt mục tiêu • Hiểu liệu (Data understanding) Với tập liệu ban đầu: tiến hành hoạt động “làm quen” liệu, xác định vấn đề chất lượng liệu, khám phá hiểu biết ban đầu tới tập liệu /phát tập liệu thú vị nhằm hình thành giả thuyết cho thơng tin ẩn Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướng hiểu liệu phân tích liệu để hiểu liệu có DW thể phản hồi, phối hợp với nội dung hiểu kinh doanh DM làm 113 rõ toán khai phá liệu, mục tiêu kế hoạch thực Chuẩn công nghiệp khai phá liệu CRISP-DM • Chuẩn bị liệu (Data preparation) gồm hoạt động nhằm xây dựng tập liệu cuối làm đầu vào cho công cụ mô hình hóa gồm hoạt động lập bảng, ghi lại lựa chọn thuộc tính chuyển đổi, làm liệu cho công cụ mô hình hóa thực nhiều lần khơng theo thứ tự quy định DM DW 114 Chuẩn công nghiệp khai phá liệu CRISP-DM • Mơ hình hóa (Modeling) Các kỹ thuật mơ hình khác lựa chọn áp dụng Xác định tham số mơ hình nhằm đạt tới giá trị tối ưu Một số kỹ thuật sử dụng thực lặp số lần mơ hình hóa chuẩn bị liệu nhằm đạt mơ hình có kết tối ưu • Đánh giá (Evaluation) Tìm (một số) mơ hình kết với mục tiêu chất lượng cao theo góc độ phân tích liệu Đánh giá mơ hình kết kỹ lưỡng xem xét bước thực để xây dựng mô hình niềm tin chắn mơ hình kết đạt mục tiêu kinh doanh theo cách thức DM DW 115 Một mơ hình khai phá liệu DN’00 Một mơ hình KDD năm 2000 [Nac00] DM DW 116 Mơ hình KPDL mơ hình kinh doanh’08 Wang, H and S Wang (2008) A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008 108(5): 622-634 [Oha09] DM DW 117 Một mơ hình KPDL hướng BI Mơ hình phát triển tri thức hướng thơng minh doanh nghiệp, 2009 [HF09] DM DW 118 Tương tác người-máy KPDL’10 Mơ hình q trình C-KDD [Pan10] DM DW 119 Mơ hình KPDL hướng ứng dụng Mơ hình q trình khai phá liệu hướng miền ứng dụng [CYZ10] DM DW 120 Mơ hình KPDL hướng ứng dụng P1 Hiểu vấn đề (định danh xác định vấn đề, bao gồm phạm vi thách thức ); P2 Phân tích ràng buộc (định danh ràng buộc xung quanh vấn đề trên, từ liệu, miền ứng dụng, tính thú vị cách phân bố); P3 Định nghĩa mục tiêu phân tích, xây dựng đặc trưng (định nghĩa mục tiêu khai phá liệu, đặc trưng lựa chọn phù hợp xây dựng để đạt mục tiêu); P4 Tiền xử lý liệu (trích chọn, chuyển đổi tải liệu, nói riêng, chuẩn bị liệu chẳng hạn xử lý liệu tích riêng tư); P5 Lựa chọn phương pháp mơ hình hóa (lựa chọn mơ hình phương pháp thích hợp để đạt mục tiêu trên); P05 Mơ hình hóa chun sâu (áp dụng mơ hình hóa chun sâu cách sử dụng nhiều mơ hình hiệu tiết lộ cốt lõi vấn đề, dụng khai phá đa bước, khai phá kết hợp); DM DW 121 Mơ hình KPDL hướng ứng dụng P6 Phân tích đánh giá kết chung ban đầu (phân tích /đánh giá phát ban đầu); P7 Là hoàn toàn hợp lý giai đoạn từ P1 lặp lặp lại thơng qua phân tích ràng buộc tương tác với chuyên gia miền ứng dụng theo phương thức quay lui xem xét; P07 Khai phá chuyên sâu kết chung ban đầu áp dụng; P8 Đo lường nâng cao khả hành động (đánh giá tính thú vị theo quan điểm kỹ thuật kinh doanh, tăng cường hiệu suất cách áp dụng phương pháp hiệu hơn) P9 Thực qua lại P7 P8; P10 Hậu xử lý kết (hậu phân tích hậu khai phá liệu kết ban đầu); P11 Xem xét lại giai đoạn từ P1 địi hỏi; P12 Triển khai (triển khai kết vào ngành kinh doanh); P13 Cung cấp tri thức báo cáo tổng hợp để định thông minh (tổng hợp phát cuối thành báo cáo định DW chuyển giao cho người kinh doanh) DM 122 Một số vấn đề liên quan Đô đo “tri thức” Tri thức “mẫu có giá trị” Mỗi toán KPDL thường kèm độ đo: phân lớp có độ đo đánh giá (chính xác + hồi tưởng, xác + lỗi), phân cụm: đo theo phương pháp, luật kết hợp (độ hỗ trợ + độ tin cậy)… Độ đo nội dung nghiên cứu KPDL Lựa chọn thuật tốn Khơng có thuật tốn “tốt nhất” cho tốn khai phá liệu Kết hợp giải pháp Vai trò liệu mẫu Dữ liệu học, liệu kiểm tra Vai trò người sử dụng DM DW 123 ... kinh doanh” CRISP-DM 2. 0 SIG WORKSHOP, LONDON, 18/01 /20 07 DW DM ) Nguồn: http://www.crisp-dm.org/Process/index.htm (13/ 02/ 2011 1 12 Chuẩn cơng nghiệp khai phá liệu CRISP-DM • Hiểu kinh doanh... hình DM 108 Bài tốn phát tri thức Nội dung KDD DM Khai phá liệu phát tri thức CSDL toán “kinh doanh”, toán “chiến lược” mà khơng phải tốn cơng nghệ Khi nên khai phá liệu Ví dụ: Chương sách... chiếm 29 % đạt 120 0 tỷ US$) David Dean, Sebastian DiGrande, Dominic Field, Andreas Lundmark, James O'Day, John Pineda, and Paul Zwillenberg (20 12) .The Internet Economy in the G -2 0 : The $4 .2 Trillion