Báo cáo tìm hiểu datamining trong sql server 2008 và xử lý ảnh
Trang 1TÌM HIỂU DATAMINING TRONG
Trang 3Sơ lược về Datamining
Sơ lược về khai khoáng dữ liệu
Ứng dụng
Nhiệm vụ của khai khoáng dữ liệu
Các kỹ thuật trong khai khoáng dữ liệu
Trang 4Giới thiệu Data Mining
Là một khái niệm về các
kỹ thuật được sử dụng
trong việc tìm ra các tri
thức trong cơ sở dữ liệu
Xuất hiện đầu tiên trong
quyển “phát hiện tri thức
trong cơ sở dữ liệu”
(1988) của Fayyad,
Piatestsky-Shapiro và
Smyth
Trang 5Giới thiệu Data Mining
Trang 6 Dữ liệu lớn
Dữ liệu nhiều về kích thước và số
chiều
Có ít tri thức trong dữ liệu
Được ứng dụng khả thi trong trường hợp : nhiều dữ liệu – nghèo tri thức
Trang 7Ứng dụng
Thông tin thương mại
Thông tin sản xuất
Thông tin khoa học
Trang 8Nhiệm vụ của khai khoáng dữ liệu
Trang 9Kỹ thuật trong khai khoáng dữ liệu
Xác suất thống kê
Máy học
Hệ thống dữ liệu
Nhận dạng mẫu …
Trang 10Kết hợp các phương pháp
Trang 11DataMining with Microsoft SQL
Server 2008
Trang 12SQL SERVER
SQL Server ra đời từ năm 2000 là một
công cụ dùng trong việc quản lý dữ liệu
Có 3 phiên bản 2000 , 2005 , 2008
Các công nghệ trong SQL Server 2008:
SQL Server Database Engine , SQL Server Integration Services , SQL Server Analysis Services , SQL Server Reporting Services
Trang 131.Business Intelligent Developtment (BI Dev Studio)
BI Dev Studio là môi trường tích hợp để tạo và làm việc với các mô hình khai khoáng dữ liệu.
=> Xây dựng một giải pháp toàn diện cho các dự án.
Ví dụ: Dự báo bán hàng, Xác định các sản phẩm
có thể được bán lại, Tìm lược đồ (sequences)
theo thứ tự các sản phầm mà thông thường,
khách hàng thêm vào một giỏ mua hàng của
mình
Trang 142.SQL server management
studio
SSM studio là tập hợp các công cụ điều
khiển và quản lí để làm việc với các thành phần trong MSS(Microsoft SQL Server)
Trang 153 Các bước khai khoáng dữ
3 Các bước khai khoáng dữ
liệu của Microsoft :
Định nghĩa vấn đề
Chuẩn bị vấn đề
Khám phá dữ liệu
Xây dựng mô hình
khai thác và đánh giá mô hình
Triển khai mô hình và cập nhật mô hình
Trang 17Bước 1: Định nghĩa vấn đề
Trang 19sách hoặc quy trình của doanh nghiệp?
- Bạn có muốn thực hiện các dự báo từ các mô hình dữ liệu khai phá này, hay chỉ tìm kiếm các mẫu mà bạn cho là thú vị?
- Dữ liệu được phân phối như thế nào?
Trang 20Bước 2: Chuẩn bị dữ liệu
Trang 21Bước 2: Chuẩn bị dữ liệu (tt)
Mục đích: Để củng cố và làm sạch các dữ liệu đã được xác định trong bước 1
Dữ liệu có thể rải rác và được lưu trữ
trong các định dạng khác nhau hoặc
không chính xác, thiếu mục
Trang 22Bước 3: Khám phá dữ liệu
Trang 23Bước 3: Khám phá dữ liệu (tt)
Mục đích: Để lựa chọn mô hình phù hợp
Kỹ thuật khám phá dữ liệu bao gồm: tính các giá trị nhỏ nhất, lớn nhất, giá trị trung bình, độ lệch chuẩn và tìm sự phân bố dữ liệu
Trang 24Bước 4: Xây dựng mô hình
Trang 25Bước 4: Xây dựng mô hình (tt)
Mục đích: Để xây dựng các mô hình hay khai các mô hình.
Trước hết phải chia dữ liệu thành 2 loại: Dữ liệu huấn luyện và dữ liệu kiểm tra.
Dữ liệu huấn luyện dùng để xây dựng mô
hình
Dữ liệu kiểm tra dùng để kiểm tra độ chính xác của mô hình bằng cách tạo ra các truy vấn.
Trang 26Bước 4: Xây dựng mô hình (tt)
Trang 27Bước 5: khai thác và đánh giá mô
hình
Trang 28Bước 5: khai thác và đánh giá mô
hình (tt)
Mục đích: thử nghiệm các mô hình để
đánh giá chính xác hiệu suất của tất cả
các mô hình trên cùng một dữ liệu
Analysis Services cung cấp các công cụ
giúp cho bạn thực hiện việc này
Trang 29Bước 6: Triển khai mô hình và cập
nhật mô hình
Trang 30Bước 6: Triển khai mô hình và cập
nhật mô hình (tt)
Có thể thực hiện nhiều nhiệm vụ, tùy thuộc vào nhu cầu Sau đây là một số trong những công việc bạn có thể thực hiện:
- Tạo ra các mô hình dự báo có thể được sử dụng để thực hiện các quyết định kinh
doanh SQL Server cung cấp ngôn ngữ DMX giúp tạo các truy vấn dự đoán, và dự báo
Query Builder để xây dựng các truy vấn
Trang 31Bước 6: Triển khai mô hình và cập
nhật mô hình (tt)
- Tạo các nội dung truy vấn, để lấy các số
liệu thống kê, quy tắc, hoặc các công thức
Trang 324 các thuật toán trong Microsoft
SQL Server 2008 Data mining:
Trang 33Tóm tắt các thuật toán:
rời rạc, dựa trên các thuộc tính trong tập hợp dữ liệu (Microsoft Decision Trees Algorithm)
liên tục , ví dụ những lợi nhuận và những tổn thất, dựa trên các thuộc tính khác nhau của tập hợp DL (Microsoft Time Series Algorithm.)
, hoặc các liên cung , hoặc các danh mục có thuộc tính giống nhau (Microsoft Clustering Algorithm)
Trang 355 Sử dụng các thuật toán như
thế nào ?
Dự đoán 1 thuộc tính rời
Trang 36Tìm những mục(item) giống nhau
ví dụ:chia khách hàng thành các nhóm
khác nhau để với mỗi nhóm có từng
chiến lược quảng cáo khác nhau
Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm
Dự đoán 1 trình tự
ví dụ thi hành 1 phân tích clickstream
của 1 trang web công ty
Microsoft Sequence Clustering Algorithm
Tìm nhóm của những mục
chọn(item) trong các công cụ
thương mại
để giới thiệu thêm những sản phẩm để
khách hàng mua
Microsoft Association Algorithm Microsoft Decision Trees Algorithm
Trang 37Datamining trong xử lý ảnh
Trang 38Trước tiên chúng ta cùng xem video sau
Một số sự kiện trong video
Ví dụ
Trang 39Chuỗi lai: A, D1, E, B, A, C, D1, E, H, B, A, C
Ví dụ (tt)
Trang 40Một liên kết: {A, D, E, B, A, C}
Sự kiện ghi điểm
Ví dụ (tt)
Trang 41Xác định chuyển động của camera
Xác định các sự kiện âm thanh
Xác định các shot có sân vận động
Xác định sự thay đổi bảng tỉ số
Các kỹ thuật xử lý video
Trang 42Dựa vào sự cố định của bảng tỉ số trong
video
Giữ lại các vùng thuộc một trong 4 góc video
Dùng bộ máy nhận dạng ký tự tối ưu (Optical Character Recognition – OCR) Engine
Xác định sự thay đổi bảng tỉ số
Trang 43Dùng Camera Motion Extraction Method
Phân loại chuyển động của camera
• Theo cách di chuyển: quét ngang, phóng to, thu
nhỏ
• Theo độ lớn: nhanh, vừa, chậm
Ví dụ: D1
Xác định camera chuyển động
Trang 44• Chia chuỗi âm thanh thành các khoảng 1 giây.
• Tính tỉ số frames có âm thanh cao độ thấp trong 1 khoảng và số frames của khoảng
Ví dụ (tt)
Trang 45Tiếng còi trọng tài
Phương pháp:
• Dùng ngưỡng
• Chia chuỗi âm thanh thành các khoảng 0,5 giây
• Tính tỉ số năng lượng âm thanh trong 1 khoảng
và số frames của khoảng
Xác định sự kiện âm thanh
Trang 46Dùng Clustering phân nhóm các shot
Dùng phương pháp màu trội (dominant color)
• Chọn N frames (hệ màu HIV) liên tiếp từ video, tính giá trị H lớn nhất, rồi tính giá trị S, V lớn nhất
• Tính giá trị H lớn nhất, rồi tính giá trị S, V lớn
nhất của các key frames trong mỗi nhóm
• Dùng ngưỡng
Xác định sự kiện âm thanh (tt)
Trang 47• Chuyển đổi video thành chuỗi lai gồm các ký hiệu.
• Dùng phương pháp tương tự phương pháp tìm tập phổ biến và luật kết hợp trong Data Mining để tìm các liên kết video (các liên kết video có vai trò giống như các luật kết hợp)
o Tìm tập các liên kết phổ biến 1 phần tử: I[1]
o Nếu I[k-1] khác rỗng: tìm các ứng viên cho tập I[k],
và dựa vào độ tin cậy để tìm các phần tử của I[k]
Khai khoáng liên kết video
Trang 48Ví dụ:
Liên kết{X} = {A, D, E, B,C} ={shot có sân thi đấu, camera quét ngang, camera phóng to, không có sân, bảng tỉ số thay đổi}: sự kiện ghi điểm
Liên kết {Y} = {A, D, E, ,B, H}
Khoảng cách của {X} và {Y}: 1 – 4/5 = 1/5
Phân loại liên kết video