1. Trang chủ
  2. » Luận Văn - Báo Cáo

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

21 1,6K 9

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 1,16 MB

Nội dung

CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU ĐIỂN HÌNH Mục tiêu tổng quát của khai phá dữ liệu là mô tả và dự báo liệu để dự đoán về giá trị chưa biết hoặc giá trị sẽ có trong tương lai của các biến..

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA CÔNG NGHỆ THÔNG TIN

Trang 2

1 NHU CẦU KHAI PHÁ DỮ LIỆU

Nhiều dữ liệu được sinh thêm:

Web, văn bản, ảnh …

Giao dịch thương mại, cuộc gọi,

DL khoa học: thiên văn, sinh học …

Thêm nhiều dữ liệu được nắm giữ:

Công nghệ lưu giữ nhanh hơn và rẻ hơn

Hệ quản trị CSDL có thể quản lý các cơ

sở dữ liệu với kích thước lớn hơn

SỰ BÙNG NỔ THÔNG TIN!

Trang 3

3

Trang 4

• Vấn đề bùng nổ dữ liệu

Các tiện ích thu thập dữ liệu tự động

và công nghệ cơ sở dữ liệu lớn mạnh dẫn tới một lượng lớn dữ liệu được tích lũy và/hoặc cần được phân tích trong cơ sở dữ liệu, kho

dữ liệu và trong các nguồn chứa dữ liệu khác

Trang 6

April 6, 2015 6

Quá trình KDD [FPS96]

[FPS96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996) From

Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery

and Data Mining 1996: 1-34

Đánh giá và

Trang 8

3 CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU ĐIỂN HÌNH

Mục tiêu tổng quát của khai phá dữ liệu là mô tả và dự báo

liệu để dự đoán về giá trị chưa biết hoặc giá trị sẽ có trong tương lai của các biến.

⟹ Thể hiện thông qua các bài toán cụ thể:

•Mô tả khái niệm

Trang 9

3.1 Mô tả khái niệm

Nhằm tìm ra các đặc trưng và tính chất của khái niệm

Các bài toán điển hình bao gồm: tổng quát hóa, tóm tắt, phát hiện các đặc trưng dữ liệu ràng buộc,…

Bài toán tóm tắt là một trong những bài toán mô tả điển hình, áp dụng các phương pháp để tìm ra một mô tả cô đọng đối với một tập con dữ liệu Ví dụ: xác định kỳ vọng và độ lệch chuẩn của một dãy các giá trị.

3.2 Tìm quan hệ kết hợp

Phát hiện mối quan hệ kết hợp trong tập dữ liệu là bài toán quan trọng trong khai phá dữ liệu

Một trong những mối quan hệ kết hợp điển hình là quan hệ kết hợp giữa

các biến dữ liệu trong đó bài toán khai phá luật kết hợp là một bài toán

tiêu biểu

Bài toán khai phá luật kết hợp thực hiện việc phát hiện ra mối quan

hệ kết hợp giữa các tập thuộc tính (các tập biến) có dạng X ⟶ Y, trong đó X và Y là hai tập thuộc tính.

“Sự xuất hiện của X kéo theo sự xuất hiện của Y như thế nào?”

Trang 10

Thực hiện việc nhóm dữ liệu thành các “cụm” (có thể coi là một lớp mới)

để có thể phát hiện được các mẫu phân bố dữ liệu trong miền ứng dụng

Hướng tới việc nhận biết một tập hữu hạn các cụm hoặc các lớp để mô tả

Trang 11

3.5 Hồi quy

Là bài toán điển hình trong phân tích thống kê và dự báo

Tiến hành việc dự đoán các giá trị của một hoặc một số biến phụ thuộc vào giá trị của một tập hợp các biến độc lập

Có thể quy về việc học một hàm ánh xạ dữ liệu nhằm xác định giá trị thực của một biến theo một số biến khác

3.6 Mô hình phụ thuộc

Hướng tới việc tìm ra một mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến

Bao gồm 2 mức:

Mức cấu trúc của mô hình: thường dưới dạng đồ thị trong đó các biến là

phụ thuộc bộ phân vào các biến khác

Mức định lượng của mô hình: mô tả sức mạnh của tính phụ thuộc khi sử

dụng việc đo tính theo giá trị số

3.7 Phát hiện biến đổi và độ lệch

Tập trung phát hiện hầu hết sự thay đổi có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, cung cấp những tri thức về sự biến đổi và độ lệch cho người dùng Thường được ứng dụng trong bước tiền xử lý

Trang 12

{Milk, Coke} ⟶ {Sweet} (sup=30%, conf=70%)

{Beer} ⟶ {Cigar, Coffee} (sup=35%, conf = 65%)

{Coffee} ⟶ {Tea, Biscuit} (sup=22%, conf = 75%)

.

Phân cụm dữ liệu

Phân lớp dữ liệu Khai phá Luật kết hợp

Trang 13

Phân tích dữ liệu và hỗ trợ quyết định

Phân tích và quản lý thị trường

 Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói quen mua hàng, bán hàng chéo, phân đoạn thị trường

Phân tích và quản lý rủi ro

 Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng, phân tích cạnh tranh

Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai)

Ứng dụng khác

Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web.

Khai phá dữ liệu dòng.

Phân tích DNA và dữ liệu sinh học.

4 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

Trang 14

April 6, 2015 14

Phân tích kinh doanh: Khai phá quá trình

WMP Van der Aalst (2011) Process Mining: Discovery, Conformance and

Enhancement of Business Processes, Springer.

Trang 15

April 6, 2015 15

Phát hiện gian lận và khai phá mẫu hiếm

• Tiếp cận : Phân cụm & xây dựng mô hình gian lận, phân tích bất

thường

• Ứng dụng : Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng,

viễn thông.

 Bảo hiểm tự động: vòng xung đột

 Rửa tiền: giao dịch tiền tệ đáng ngờ

 Bảo hiểm y tế

• Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn

• Xét nghiệm không cần thiết hoặc tương quan

 Viễn thông: cuộc gọi gian lận

• Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc tuần

Phân tích mẫu lệch một dạng chuẩn dự kiến

 Công nghiệp bán lẻ

• Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên không trung thực

 Chống khủng bố

Trang 16

ỨNG DỤNG KHAI PHÁ DỮ LIỆU

DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN

Ứng dụng dự đoán

kết quả học tập của sinh

viên được xây dựng

Theo sơ đồ

Trang 17

Đối với sinh viên, giao diện sẽ được thiết kế

trong một trang web để sinh viên có thể truy cập từ xa.

Trang 18

Khi người dùng chọn một lộ trình học, ứng dụng

sẽ hiển thị chi tiết các môn học cùng với học kỳ của lộ trình học đó.

Trang 19

Ngoài ra, hệ thống cho phép xem các mô hình đã được xây dựng nhằm hỗ trợ cho người dùng cuối là các nhà quản lý, không phải là các kỹ thuật viên xây dựng mô hình

Trang 20

• Để xây dựng được ứng dụng này phải nghiên cứu cơ sở lý thuyết liên quan đến ba kỹ thuật cây quyết định, luật kết hợp và Nạve Bayes, nghiên cứu quy trình triển khai ứng dụng khai phá dữ liệu Ngồi ra, để xây dựng ứng dụng này cũng tìm hiểu các vấn đề cơ bản về dịch vụ Microsoft SQL Server 2008 R2 Analysis Services và các cơng cụ liên quan

thấy khả năng ứng dụng kết quả này trong việc

dự đốn kết quả học tập của sinh viên Hệ thống khơng chỉ hỗ trợ cho sinh viên mà cịn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phịng đào tạo và những ai quan tâm

Trang 21

+ Đối với sinh viên: giúp cho sinh viên lựa chọn cho mình một lộ trình học phù hợp với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu

+ Đối với giáo viên chủ nhiệm: hỗ trợ cho giáo viên chủ nhiệm có thể tư vấn cho sinh viên trong việc chọn một lộ trình học phù hợp

+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên

Ngày đăng: 06/04/2015, 20:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w