1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo tìm hiểu datamining trong sql server 2008 và xử lý ảnh

48 528 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 2,61 MB

Nội dung

Báo cáo tìm hiểu datamining trong sql server 2008 và xử lý ảnh

Trang 1

TÌM HIỂU DATAMINING TRONG

Trang 3

Sơ lược về Datamining

 Sơ lược về khai khoáng dữ liệu

 Ứng dụng

 Nhiệm vụ của khai khoáng dữ liệu

 Các kỹ thuật trong khai khoáng dữ liệu

Trang 4

Giới thiệu Data Mining

 Là một khái niệm về các

kỹ thuật được sử dụng

trong việc tìm ra các tri

thức trong cơ sở dữ liệu

 Xuất hiện đầu tiên trong

quyển “phát hiện tri thức

trong cơ sở dữ liệu”

(1988) của Fayyad,

Piatestsky-Shapiro và

Smyth

Trang 5

Giới thiệu Data Mining

Trang 6

 Dữ liệu lớn

 Dữ liệu nhiều về kích thước và số

chiều

 Có ít tri thức trong dữ liệu

 Được ứng dụng khả thi trong trường hợp : nhiều dữ liệu – nghèo tri thức

Trang 7

Ứng dụng

 Thông tin thương mại

 Thông tin sản xuất

 Thông tin khoa học

Trang 8

Nhiệm vụ của khai khoáng dữ liệu

Trang 9

Kỹ thuật trong khai khoáng dữ liệu

 Xác suất thống kê

 Máy học

 Hệ thống dữ liệu

 Nhận dạng mẫu …

Trang 10

Kết hợp các phương pháp

Trang 11

DataMining with Microsoft SQL

Server 2008

Trang 12

SQL SERVER

 SQL Server ra đời từ năm 2000 là một

công cụ dùng trong việc quản lý dữ liệu

 Có 3 phiên bản 2000 , 2005 , 2008

 Các công nghệ trong SQL Server 2008:

SQL Server Database Engine , SQL Server Integration Services , SQL Server Analysis Services , SQL Server Reporting Services

Trang 13

1.Business Intelligent Developtment (BI Dev Studio)

 BI Dev Studio là môi trường tích hợp để tạo và làm việc với các mô hình khai khoáng dữ liệu.

=> Xây dựng một giải pháp toàn diện cho các dự án.

 Ví dụ: Dự báo bán hàng, Xác định các sản phẩm

có thể được bán lại, Tìm lược đồ (sequences)

theo thứ tự các sản phầm mà thông thường,

khách hàng thêm vào một giỏ mua hàng của

mình

Trang 14

2.SQL server management

studio

 SSM studio là tập hợp các công cụ điều

khiển và quản lí để làm việc với các thành phần trong MSS(Microsoft SQL Server)

Trang 15

3 Các bước khai khoáng dữ

3 Các bước khai khoáng dữ

liệu của Microsoft :

 Định nghĩa vấn đề

 Chuẩn bị vấn đề

 Khám phá dữ liệu

 Xây dựng mô hình

 khai thác và đánh giá mô hình

 Triển khai mô hình và cập nhật mô hình

Trang 17

Bước 1: Định nghĩa vấn đề

Trang 19

sách hoặc quy trình của doanh nghiệp?

- Bạn có muốn thực hiện các dự báo từ các mô hình dữ liệu khai phá này, hay chỉ tìm kiếm các mẫu mà bạn cho là thú vị?

- Dữ liệu được phân phối như thế nào?

Trang 20

Bước 2: Chuẩn bị dữ liệu

Trang 21

Bước 2: Chuẩn bị dữ liệu (tt)

 Mục đích: Để củng cố và làm sạch các dữ liệu đã được xác định trong bước 1

 Dữ liệu có thể rải rác và được lưu trữ

trong các định dạng khác nhau hoặc

không chính xác, thiếu mục

Trang 22

Bước 3: Khám phá dữ liệu

Trang 23

Bước 3: Khám phá dữ liệu (tt)

 Mục đích: Để lựa chọn mô hình phù hợp

 Kỹ thuật khám phá dữ liệu bao gồm: tính các giá trị nhỏ nhất, lớn nhất, giá trị trung bình, độ lệch chuẩn và tìm sự phân bố dữ liệu

Trang 24

Bước 4: Xây dựng mô hình

Trang 25

Bước 4: Xây dựng mô hình (tt)

 Mục đích: Để xây dựng các mô hình hay khai các mô hình.

 Trước hết phải chia dữ liệu thành 2 loại: Dữ liệu huấn luyện và dữ liệu kiểm tra.

 Dữ liệu huấn luyện dùng để xây dựng mô

hình

 Dữ liệu kiểm tra dùng để kiểm tra độ chính xác của mô hình bằng cách tạo ra các truy vấn.

Trang 26

Bước 4: Xây dựng mô hình (tt)

Trang 27

Bước 5: khai thác và đánh giá mô

hình

Trang 28

Bước 5: khai thác và đánh giá mô

hình (tt)

 Mục đích: thử nghiệm các mô hình để

đánh giá chính xác hiệu suất của tất cả

các mô hình trên cùng một dữ liệu

 Analysis Services cung cấp các công cụ

giúp cho bạn thực hiện việc này

Trang 29

Bước 6: Triển khai mô hình và cập

nhật mô hình

Trang 30

Bước 6: Triển khai mô hình và cập

nhật mô hình (tt)

 Có thể thực hiện nhiều nhiệm vụ, tùy thuộc vào nhu cầu Sau đây là một số trong những công việc bạn có thể thực hiện:

- Tạo ra các mô hình dự báo có thể được sử dụng để thực hiện các quyết định kinh

doanh SQL Server cung cấp ngôn ngữ DMX giúp tạo các truy vấn dự đoán, và dự báo

Query Builder để xây dựng các truy vấn

Trang 31

Bước 6: Triển khai mô hình và cập

nhật mô hình (tt)

- Tạo các nội dung truy vấn, để lấy các số

liệu thống kê, quy tắc, hoặc các công thức

Trang 32

4 các thuật toán trong Microsoft

SQL Server 2008 Data mining:

Trang 33

Tóm tắt các thuật toán:

rời rạc, dựa trên các thuộc tính trong tập hợp dữ liệu (Microsoft Decision Trees Algorithm)

liên tục , ví dụ những lợi nhuận và những tổn thất, dựa trên các thuộc tính khác nhau của tập hợp DL (Microsoft Time Series Algorithm.)

, hoặc các liên cung , hoặc các danh mục có thuộc tính giống nhau (Microsoft Clustering Algorithm)

Trang 35

5 Sử dụng các thuật toán như

thế nào ?

Dự đoán 1 thuộc tính rời

Trang 36

Tìm những mục(item) giống nhau

ví dụ:chia khách hàng thành các nhóm

khác nhau để với mỗi nhóm có từng

chiến lược quảng cáo khác nhau

Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm

Dự đoán 1 trình tự

ví dụ thi hành 1 phân tích clickstream

của 1 trang web công ty

Microsoft Sequence Clustering Algorithm

Tìm nhóm của những mục

chọn(item) trong các công cụ

thương mại

để giới thiệu thêm những sản phẩm để

khách hàng mua

Microsoft Association Algorithm Microsoft Decision Trees Algorithm

Trang 37

Datamining trong xử lý ảnh

Trang 38

Trước tiên chúng ta cùng xem video sau

Một số sự kiện trong video

Ví dụ

Trang 39

Chuỗi lai: A, D1, E, B, A, C, D1, E, H, B, A, C

Ví dụ (tt)

Trang 40

Một liên kết: {A, D, E, B, A, C}

Sự kiện ghi điểm

Ví dụ (tt)

Trang 41

Xác định chuyển động của camera

Xác định các sự kiện âm thanh

Xác định các shot có sân vận động

Xác định sự thay đổi bảng tỉ số

Các kỹ thuật xử lý video

Trang 42

Dựa vào sự cố định của bảng tỉ số trong

video

Giữ lại các vùng thuộc một trong 4 góc video

Dùng bộ máy nhận dạng ký tự tối ưu (Optical Character Recognition – OCR) Engine

Xác định sự thay đổi bảng tỉ số

Trang 43

Dùng Camera Motion Extraction Method

Phân loại chuyển động của camera

• Theo cách di chuyển: quét ngang, phóng to, thu

nhỏ

• Theo độ lớn: nhanh, vừa, chậm

Ví dụ: D1

Xác định camera chuyển động

Trang 44

• Chia chuỗi âm thanh thành các khoảng 1 giây.

• Tính tỉ số frames có âm thanh cao độ thấp trong 1 khoảng và số frames của khoảng

Ví dụ (tt)

Trang 45

Tiếng còi trọng tài

Phương pháp:

• Dùng ngưỡng

• Chia chuỗi âm thanh thành các khoảng 0,5 giây

• Tính tỉ số năng lượng âm thanh trong 1 khoảng

và số frames của khoảng

Xác định sự kiện âm thanh

Trang 46

Dùng Clustering phân nhóm các shot

Dùng phương pháp màu trội (dominant color)

• Chọn N frames (hệ màu HIV) liên tiếp từ video, tính giá trị H lớn nhất, rồi tính giá trị S, V lớn nhất

• Tính giá trị H lớn nhất, rồi tính giá trị S, V lớn

nhất của các key frames trong mỗi nhóm

• Dùng ngưỡng

Xác định sự kiện âm thanh (tt)

Trang 47

• Chuyển đổi video thành chuỗi lai gồm các ký hiệu.

• Dùng phương pháp tương tự phương pháp tìm tập phổ biến và luật kết hợp trong Data Mining để tìm các liên kết video (các liên kết video có vai trò giống như các luật kết hợp)

o Tìm tập các liên kết phổ biến 1 phần tử: I[1]

o Nếu I[k-1] khác rỗng: tìm các ứng viên cho tập I[k],

và dựa vào độ tin cậy để tìm các phần tử của I[k]

Khai khoáng liên kết video

Trang 48

Ví dụ:

Liên kết{X} = {A, D, E, B,C} ={shot có sân thi đấu, camera quét ngang, camera phóng to, không có sân, bảng tỉ số thay đổi}: sự kiện ghi điểm

Liên kết {Y} = {A, D, E, ,B, H}

Khoảng cách của {X} và {Y}: 1 – 4/5 = 1/5

Phân loại liên kết video

Ngày đăng: 30/05/2014, 09:41

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w