1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài Giảng Nhập Môn Khai Phá Dữ Liệu - Phát Hiện Tri Thức Từ Dữ Liệu

56 570 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 1,62 MB

Nội dung

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU PGS TS HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Chapter 2: Phát tri thức từ liệu  Công nghệ tri thức  Quản lý tri thức  Cơ sở phát tri thức từ liệu  Bài toán phát tri thức từ liệu  Một số nội dung liên quan January 12, 2017 Bài toán phát hiẹn tri thức Công nghệ tri thức  Công nghệ thông tin hạ tầng hạ tầng ? “xác định CNTT giữ vai trò hạ tầng hạ tầng quốc gia” http://vnmedia.vn/VN/congnghe/tin-tuc/35_280229/cong_nghe_thong_tin_la_ha_tang_cua_ha_tang.htm Nhầm lẫn tai hại: “hạ tầng CNTT” với thân “CNTT”  Vai trò CNTT kinh tế  Nghịch lý tính hiệu CNTT  Luận điểm CARR  Bản chất vai trò CNTT kinh tế  Kinh tế tri thức  Khái niệm kinh tế tri thức  Bốn cột trụ kinh tế tri thức  Các yếu tố đầu vào cốt lõi kinh tế tri thức: R&D, giáo dục đại học, phần mềm  Cơ Công nghệ tri thức  Khái niệm công nghệ tri thức  Nội dung công nghệ tri thức January 12, 2017 Bài toán phát hiẹn tri thức Vai trò CNTT  Nghịch lý hiệu CNTT  Robert Solow, nhà kinh tế giải thưởng Nobel, có nhận định “chúng ta nhìn thấy máy tính nơi ngoại trừ thống kê hiệu statistics.“ (1987)    Căn cứ: Thống kê hiệu kinh tế (theo lý thuyết kinh tế cổ điển) đầu tư CNTT Luận điểm CARR  “CNTT không quan trọng”: IT does not matter !  Nhận đinh luận điểm CARR Vai trò chất CNTT kinh tế  Hệ thống tác nghiệp, điều hành  Hệ thống phát tri thức January 12, 2017 Bài toán phát hiẹn tri thức Nghịch lý hiệu  “Nghịch lý hiệu quả“: Một xung đột kỳ vọng với thống kê  Mối quan hệ IT hiệu quả: nhiều tranh luận song hiểu biết hạn chế    Cho hứa hẹn khổng lồ IT tới mở “cuộc cách mạng công nghệ lớn mà loài người có" (Snow, 1966),  Năng lực máy tính đưa vào kinh tế Mỹ tăng bậc hai độ lớn từ năm 1970 Hiệu quả, đặc biệt khu vực dịch vụ đình trệ Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng cách hiển nhiên: “Không, máy tính không làm tăng hiệu quả, không hầu hết thời gian" (Economist, 1990) Erik Brynjolfsson The Productivity Paradox of Information Technology: Review and Assessment , Published in Communications of the ACM, December, 1993; and Japan Management Research, June, 1994 (in Japanese) Toàn kinh tế Mỹ: nghịch lý hiệu Sự không tương quan tăng GNP Giai đoạn Chi phí cho máy tính (%GNP) Tăng GNP hàng năm 1960s 0.003 4.50% 1970s 0.05 2.95% 1980s 0.3 2.75% 1990s 3.1 2.20% Nghịch lý hiệu quả: mức công ty    Trái: Không có quan hệ đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều ! Phải: Có 90,6 % số công ty giá thành CNTT lớn giá thu hồi vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ? http://www.strassmann.com/pubs/cf/cf970603.html Nghịch lý hiệu quả: mức công ty tài  Có quan hệ “tỷ lệ thuận” đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung) công ty tài Phân tích nghịch lý hiệu  E Brynjolfsson [Bryn93]: không nghịch lý hiệu  Lỗi đo lường từ công thức tính hiệu kinh tế cổ điển: Biến đầu vào, biến đầu đo lường biến     Đầu tư CNTT có độ trễ phát huy hiệu 2-3 năm Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty đầu tư – công ty khác hưởng lợi Sai lầm quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời Công thức tính hiệu kinh tế Luận điểm G Carr: IT does'n matter !  Nicholas G Carr IT does'n matter! HBR at Large, May 2003: 41-49      10 CNTT xuất khắp nơi tầm quan trọng chiến lược giảm Cách tiếp cận đầu tư quản lý CNTT cần phải thay đổi đáng kể ! Khi tài nguyên trở thành chất để cạnh tranh không quan trọng cho chiến lược, rủi ro tạo trở thành quan trọng lợi mà cung cấp Với hội đạt lợi chiến lược từ CNTT nhanh chóng biến mất, nhiều công ty cần có nhìn nghiêm khắc đầu tư vào CNTT quản lý hệ thống họ Carr đưa ba quy tắc hướng dẫn cho tương lai: phủ nhận vai trò chiến lược CNTT ! Nicholas G Carr The end of corporate computing, MIT Sloan Management Review, Spring 2005: 67-73 Thuộc 100 người có tên nhắc đến nhiều ! Bài toán phát tri thức  Nội dung KDD DM   Khai phá liệu phát tri thức CSDL toán “kinh doanh”, toán “chiến lược” mà toán công nghệ Khi nên khai phá liệu  Ví dụ: Chương sách Data Mining: Methods and Tools, 1998 January 12, 2017 Bài toán phát hiẹn tri thức 42 Mô hình vòng khai phá liệu DN’98  Mô hình năm 1998 January 12, 2017 Mô hình vòng khai phá liệu DN’98 • • • • • • • • Xác định mục tiêu kinh doanh Bắt đầu với nhiều ba mục tiêu kinh doanh để nghiên cứu có tính tập trung, Định danh liệu doanh nghiệp mà chứa thông tin liên quan tới mục tiêu kinh doanh xác định, Khởi tạo tập liệu mẫu chứa thông tin liên quan, Định danh chuyên gia miền lĩnh vực làm việc với nhóm thực nghiệm hệ thống phát tri thức, Khởi tạo liệu cho lực tính toán làm chủ liệu khảo sát thích hợp với công cụ phát tri thức phù hợp mục tiêu kinh doanh, Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá liệu xác nhận công cụ thích hợp với mục tiêu kinh doanh, Trích chọn quan hệ mẫu từ tập liệu kinh doanh, Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá liệu để xác định quan hệ mẫu thực liên quan tới mục tiêu kinh doanh January 12, 2017 Chuẩn công nghiệp khai phá liệu CRISP-DM     January 12, 2017 Các pha mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining) “Hiểu kinh doanh”: hiểu toán đánh giá Thi hành sau tham chiếu kết với “hiểu kinh doanh” CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007 Nguồn: http://www.crisp-dm.org/Process/index.htm (13/02/2011) Nhập môn khai phá liệu: Chương Chuẩn công nghiệp khai phá liệu CRISP-DM • • • Hiểu kinh doanh (Business understanding):  tập trung vào hiểu biết mục tiêu yêu cầu từ góc độ kinh doanh  chuyển đổi tri thức thành  định nghĩa toán khai thác liệu  kế hoạch sơ thiết kế để đạt mục tiêu Hiểu liệu (Data understanding):  bắt đầu với sưu tập liệu ban đầu tiến hành hoạt động để làm quen với liệu, xác định vấn đề chất lượng liệu,  khám phá hiểu biết vào tập liệu phát tập liệu thú vị nhằm hình thành giả thuyết cho thông tin ẩn  Tri thức kinh doanh có từ giai đoạn hiểu kinh doanh định hướng việc hiểu liệu qua phân tích liệu để hiểu liệu phản hồi, phối hợp với nội dung hiểu kinh doanh để làm rõ toán khai phá liệu, mục tiêu kế hoạch thực Chuẩn bị liệu (Data preparation)  bao gồm tất hoạt động nhằm xây dựng tập liệu cuối làm đầu vào cho công cụ mô hình hóa  bao gồm hoạt động lập bảng, ghi lại lựa chọn thuộc tính chuyển đổi, làm liệu cho công cụ mô hình hóa  thực nhiều lần không theo thứ tự quy định January 12, 2017 Nhập môn khai phá liệu: Chương Chuẩn công nghiệp khai phá liệu CRISP-DM • Mô hình hóa (Modeling):     • Các kỹ thuật mô hình khác lựa chọn áp dụng Xác định tham số mô hình nhằm đạt tới giá trị tối ưu Một số kỹ thuật sử dụng (cùng toán khai thác liệu, cho dạng thức liệu đầu vào) Mô hình hóa chuẩn bị liệu thực lặp số lần nhằm đạt mô hình có kết tối ưu Đánh giá (Evaluation):   mô hình (có thể số mô hình) kết với mục tiêu chất lượng cao theo góc độ phân tích liệu tìm Cần đánh giá mô hình kết kỹ lưỡng xem xét bước thực để xây dựng mô hình nhằm có niềm tin chắn mô hình kết đạt mục tiêu kinh doanh theo cách thức January 12, 2017 Nhập môn khai phá liệu: Chương Một mô hình khai phá liệu DN’00  Một mô hình KDD năm 2000 [Nac00] January 12, 2017 Mô hình KPDL mô hình kinh doanh’08  Wang, H and S Wang (2008) A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008 108(5): 622-634 [Oha09] January 12, 2017 Một mô hình KPDL hướng BI  Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09] January 12, 2017 Tương tác người-máy KPDL’10  Mô hình trình C-KDD [Pan10] January 12, 2017 Một mô hình KPDL hướng ứng dụng  Mô hình trình khai phá liệu hướng miền ứng dụng [CYZ10] January 12, 2017 Mô hình KPDL hướng ứng dụng P1 Hiểu vấn đề (định danh xác định vấn đề, bao gồm phạm vi thách thức ); P2 Phân tích ràng buộc (định danh ràng buộc xung quanh vấn đề trên, từ liệu, miền ứng dụng, tính thú vị cách phân bố); P3 Định nghĩa mục tiêu phân tích, xây dựng đặc trưng (định nghĩa mục tiêu khai phá liệu, đặc trưng lựa chọn phù hợp xây dựng để đạt mục tiêu); P4 Tiền xử lý liệu (trích chọn, chuyển đổi tải liệu, nói riêng, chuẩn bị liệu chẳng hạn xử lý liệu tích riêng tư); P5 Lựa chọn phương pháp mô hình hóa (lựa chọn mô hình phương pháp thích hợp để đạt mục tiêu trên); P05 Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu cách sử dụng nhiều mô hình hiệu tiết lộ cốt lõi vấn đề, dụng khai phá đa bước, khai phá kết hợp); January 12, 2017 Mô hình KPDL hướng ứng dụng P6 Phân tích đánh giá kết chung ban đầu (phân tích /đánh giá phát ban đầu); P7 Là hoàn toàn hợp lý giai đoạn từ P1 lặp lặp lại thông qua phân tích ràng buộc tương tác với chuyên gia miền ứng dụng theo phương thức quay lui xem xét; P07 Khai phá chuyên sâu kết chung ban đầu áp dụng; P8 Đo lường nâng cao khả hành động (đánh giá tính thú vị theo quan điểm kỹ thuật kinh doanh, tăng cường hiệu suất cách áp dụng phương pháp hiệu hơn) P9 Thực qua lại P7 P8; P10 Hậu xử lý kết (hậu phân tích hậu khai phá liệu kết ban đầu); P11 Xem xét lại giai đoạn từ P1 đòi hỏi; P12 Triển khai (triển khai kết vào ngành kinh doanh); P13 Cung cấp tri thức báo cáo tổng hợp để định thông minh (tổng hợp phát cuối thành báo cáo định chuyển giao cho người kinh doanh) January 12, 2017 Chapter 2: Phát tri thức từ liệu  Công nghệ tri thức  Quản lý tri thức  Cơ sở phát tri thức từ liệu  Bài toán phát tri thức từ liệu  Một số nội dung liên quan January 12, 2017 Bài toán phát hiẹn tri thức 55 Một số vấn đề liên quan  Đô đo “tri thức”      Mỗi toán KPDL thường kèm độ đo: phân lớp có độ đo đánh giá (chính xác + hồi tưởng, xác + lỗi), phân cụm: đo theo phương pháp, luật kết hợp (độ hỗ trợ + độ tin cậy)… Độ đo nội dung nghiên cứu KPDL Lựa chọn thuật toán  Không có thuật toán “tốt nhất” cho toán khai phá liệu  Kết hợp giải pháp Vai trò liệu mẫu   Tri thức ⇔ “mẫu có giá trị” Dữ liệu học, liệu kiểm tra Vai trò người sử dụng January 12, 2017 Bài toán phát hiẹn tri thức 56

Ngày đăng: 12/01/2017, 18:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w