1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai phá dữ liệu phần 1

169 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 169
Dung lượng 10,21 MB

Nội dung

Trang 3

LỜI NÓI ĐẦU

Cùng với sự phát triển như vũ bão của công nghệ thông tin, lượng

théng tin của nhân loại được lưu trữ trên các thiết bị điện tử ngày một

tăng Nguồn dữ liệu khổng lồ ấy được tích lày với tốc độ bùng nổ từ rắt

nhiều nh vực: khoa học, kinh doanh, giao dịch, thương mại, chứng khoán, Vậy chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi” ấy không?

Khai phá dữ liệu (Data Mining - DM) ra đời phần nào đó đã giải quyết hữu hiệu cho câu hỏi đặt ra ở trên Và thể nào là khai phá dữ liệu? Khai phá dữ liệu là một quá trình khám phá, chất lọc các trí thức mới và

các trí thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có của một công ty, đơn vị, tổ chức nào đó, từ đó giúp cho chúng ta có được quyết định sáng suốt

Với mục đích cung cấp cho bạn đọc những kiến thức cơ bản về

khai phá dữ liệu, giaì đoạn quan trọng có thể nói là bậc nhất trong chặng

đường đi tim tri thức trong các kho dữ liệu đồ sộ, Nhà xuất bản Thông tin va Truyền thông xuất bản cuốn sich “Khai phá đữ liệu” của TS Lê 'Văn Phùng và Th§ Quách Xuân Trưởng, hiện dang công tác tại Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên biên soạn giới thiệu với bạn đọc

‘Cuén sách gồm 11 chương chia làm ba phần giới thiệu các khái niệm phổ biến nhất liên quan đến quá trình phát hiện trỉ thức từ dữ liệu, các phương pháp khai phá các mẫu dữ liệu “hắp din” ẩn chứa trong các tập dữ

liệu lớn, một số thuật toán điển hình trong khai phá dữ liệu

Phần 1 gồm 2 chương, trình bày các khái niệm cơ bản về khai phá

Trang 4

Phần 2 gồm 6 chương trình bày một số phương pháp khai phá các

mẫu dữ liệu hap dẫn ẩn chứa trong những tập dữ liệu lớn: Phương pháp

cây quyết định; Phương pháp phân loại và hồi quy; Phương pháp phân

cụm; Phương pháp kết hợp; Phương pháp giải thuật di truyền và Phương

pháp mạng No-ron 4

Phần 3 gồm 3 chương giới thiệu một số thuật toán điển hình trong

khai phá dữ liệu bằng các phương pháp phân cụm dữ liệu và bằng luật

kết hợp

Khai phá dữ liệu là một hướng tiếp cận mới tuy nhiên đã thu hút được Tắt nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của chúng như: Phân tích dữ liệu và hỗ trợ ra quyết định; Điều trị y học; Tin sinh học; Tài chính và thị trường chứng khoán; Quin lý quan hệ khách hàng, Chăm sóc sức khỏe,

'Hy vọng cuỗn sách sẽ thực sự hữu ích đối với các sinh viên, cử nhân,

kỹ sử, giáo viên giảng dạy, cán bộ nghiên cứu chuyên ngành công nghệ

thông tin trong công việc nghiệp vụ của mình Cuốn sách cũng là tài liệu tham khảo bổ ích cho tit cả các bạn đọc yêu công nghệ thông tin và khao

khát tìm trí thức trong các kho đữ liệu,

Nhà xuất bản Thông tin và Truyền thông xin trân trọng giới thiệu

cùng ban doc va rit mong nhận được nhiều ý kiến đóng góp của quý vị

Mọi đóng góp của quý vị xin gửi về Nhà xuất bản Thông tin và Truyền

thông - số 9, ngõ 90, phố Ngụy Như Kon Tum, quận Thanh Xuân, Hà Nội

hoặc gửi trực tiếp cho tác giả theo dia chi Ivphung@ioit.ac.vn

Trang 5

TỪ VIẾT TAT

1 Tiếng Anh

cLs Concept Learning System “Thuật toán CLS CURE Clustering Using Represen tatives Thuật toán CƯRE DBSCAN Densiy-BasedSpadalClustering Thuậttoán DBSCAN

of Applications with Noise

DENCLUE Density - CLUstring Ering 'Thuật toán DENCLUE DM Data Mining Khai phá đữ liệu EM Expectation Maximization “Thuật toán EM GA Genetic Algorithm Giải thuật di truyền 1D3 Interactive Dichotomizen 3 — ThuậttoánID3 KDD Knowledge Discovery from Data Pháthiện trì thức từ đữliệu OLAP On-Line Analytical Processing Xửlýphẩmtíchưựctuyển PAM Partitioning Around Medoids —‘Thujt ton PAM

Trang 6

MỞ ĐẦU

Khai phá dữ liệu (Dœa Minhg - DM) và phát hiện trì thức từ dữ liệu

(Knowledge Discovery from Data - KDD) là một lính vực non trẻ nhưng đầy hứa

hẹn Thông tin và trì thức đá khai phá được có thể sử dụng trong nhiều lĩnh vực từ phân tích thị trường, phát hiện gian lận, giữ chân khách hàng đến điều

khiển sản xuất và nghiên cứu khoa học DM có thể được xem như một kết quả tiến hóa tự nhiên của công nghệ thông tin (CNTT)

“Quá trình phát triển hệ thống dữ liệu đã chứng kiến một nhánh tiến hóa thông qua sự phát triển các chức năng sau [28) (hình 1):

'Từ những năm 1990, với sự phát triển mạnh mẽ của một loạt các công

nghệ (vi xử lý, lưu trữ, truyền thông, thông tỉn), khối lượng dữ liệu tích lũy

được đã tăng nhanh và din đến bùng nổ dữ liệu trong nhiều lĩnh vực đời sóng,

xã hội, khoa học như thiên văn, hóa học, bảo mật, truyền thông, thương mại, cdữ liệu Web, an ninh quốc phòng Riếng Google tiếp nhận hơn 4 tỷ yêu cầu tìm kiếm mỗi ngày, lưu trữ hàng trăm terabytes dt ligu, AT&T tiép nhận 275 triệu cuộc gọi mỗi ngày, Eranee Telecom có 30 terabytes thông tỉa về khách hàng, Walmart có 20 triệu giao dịch mỗi ngày, Burope’s Very Long Baseline Interforometry (VLBI có l6 kính thiên văn, mỗi kính thu được L gigabisgiây dữ liệu, Cơ quan an ninh quốc phòng Hoa Kỳ (SA) có trong tay

hàng triệu văn bản về khủng bố, E1 nipo cũng lưu rit vai trim gigabytes,

Tnternet archive, vnwwrarchive.org cũng lưu trữ khoảng 300 terabytes Người t4

dy tinh dữ liệu trên toàn clu sé ting gắp đôi trong vòng 9 thang

Sự phong phú về dữ liệu đỗ sộ cùng với những nhu cầu về các công cụ

phân tích dữ liệu mạnh đã nói lên rằng tình trạng giàu dữ liệu nhưng đói về

Trang 7

'Slc hệ Đắng gun i fo orang a TO ae 1)

‘seh dg St mang pcp ten rg 806 ua |

te como meno ken hte bd a ‘he pong Pp whe oye Bay, hm be vá SỐ,

oon aor tay

Hinh 1 Sự tiến lóa của công nghệ hệ thống cơ sở dỡ liệu

Do tăng trưởng nhanh, khối lượng cực lớn của dữ liệu được sưa tập và lưu Siữ trong những kho chứa dữ liệu khổng 18 cũng như trên Internet đã vượt quá khả năng hip thụ của con người nếu không có những công cụ mạnh Két quả là các dữ liệu đã được sưu tập trong những kho chứa khổng lỗ đó đá trở thành “mỗ chôn” dữ liệu Do đó, những quyết định quan trọng thường không dựa vào những dữ liệu giàu thông tỉn trong kho chứa mà lại dựa vào

quyết định trực giác của người thực hiện vì đơn giản rằng người ra quyết định

Trang 8

Mô dầu 9

chỉ chế biến thủ công tri thức thành các cơ sở trí thức Rắt tiếc rằng, thủ tục này đễ xây ra sai lệch hoặc lỗi, cực kỳ mắt thời gian và đất giá Các công cụ khai phá dữ liệu thực hiện phân tích dữ liệu và có thể khám phá các mẫu dữ

liệu quan trọng, đóng góp phần lớn vào chiến lược kinh doanh, xây dựng các

cơ sờ tỉ thức, các nghiên cứu khoa học và y t Khoảng trồng cách biệt giữa dit

liệu và thông tin đã thành nhu cầu thúc đẩy một bước phát triển có hệ thông các công cụ khai phá dữ liệu để biến “mồ chôn” dữ liệu thành “mỏ vàng”

trì hức,

Trang 9

Phan 1

CAC KHAI NIEM CO BAN

VE KHAI PHA DU LIEU

Trang 10

Chương1

QUA TRÌNH PHÁT HIỆN TRI THỨC TỪ DU LIEU

1-1 TRI THUG VA PHAT HIEN TRI THUG

1.11, Trì thức

“Theo định nghĩa thông thường, rỉ (hức (knowledge) là “hiểu” và

“biết”, những hiểu biết có hệ thống về sự vật, hiện tượng tự nhiên hoặc xã

hội, ví dụ như trí thức khoa học, tr thức nghề nghiệp Trong kinh tế tri thức

và trong ngành khoa học thông tin và thư viện ngây nay định nghĩa: Trí hike à thông tìn có ý ng]ĩ@ (neaningfil) và hữu ích (useful)

Theo Bách khoa toàn thư Việt Nam [58], tri thite là “kết quả của các

quá trình nhận thức của con người về đối tượng được nhận thức, làm tái

hiện trong tư tưởng con người những thuộc tính, những mối quan hệ, những up luật vận động, phát triển của đối tượng và được diễn đạt bằng ngôn ngữ tự nhiên hay hệ thẳng ký hiệu khác Trì thức thông thường được hình thành do hoạt động hàng ngảy của mỗi cá nhân và mang tính chất cảm tính trực tiếp, bể ngoài và rời rạc Trí thức khoa học phản ánh trình độ cao của con người đi sâu nhận thức đối tượng nhằm vạch ra bản chất của đối tượng

Trĩ thức khoa học được chia thành trí thức kinh nghiệm và trì thức lý luận “Trỉ thức kinh nghiệm do quan sát, mô tả, thực nghiệm mang lại Trỉ thức lý

luận là kết quả của sự khái quát hóa những tri thức kinh nghiệm (những tài liệu kinh nghiệm, kết quả thực nghiệm) để xây dựng các hệ thống lý luận phan anh những mỗi liên hệ tắt yếu, cơ bản của sự vật, hiện tượng hay lớp

sự vật, hiện tượng”

Môn học về trì thức được gọi là nhận thức luận Trong nhận thức luận, một định nghĩa phổ biến của trì thức là nó bao gồm ba tiêu chí khả tín,

Trang 11

14 Khai phá dữ liệu Nói đơn giản, tri thức là các thông tin tích hợp, bao gồm các sự kiện và

các mỗi quan hệ giữa chúng Các mối quan hệ này có thẻ được hiểu, được phát hiện ra, hoặc có thể được học, Nói cách khác, trì thức có thể coi là dữ liệu có độ trừu tượng và tính tổ chức cao

Trong quá trình khai phá dữ liệu, nếu những quan hệ giữa các dữ liệu được chỉ ra một cách rõ rằng thì quan hệ đó sẽ thể hiện trì thức Chẳng hạn, 'bản thân từng con số riêng lẻ như 1, 3, 2, 5, 7, 10, là các dữ liệu Nhưng

khi dat ching lại với nhau theo trật tự như 1, 1, 2, 3, 5, 8, 13, 21, 34, thì

người ta phát hiện giữa chúng có mỗi quan hệ Mỗi quan hệ đó được biểu

diễn bằng công thức U„ = Uạ + Ux, Công thức này chính là trì thức,

So với dữ liệu thì tri thức có số lượng ít hơn rất nhiều vì trí thức là “"sự kết tỉnh” hay "chất lọc” hay "cô đọng” từ vô số các dữ liệu Xuyên suốt

cuốn sách nảy, khái niệm “mẫu” được dùng là một biểu hiện của trí thức được phát hiện từ những kho dữ liệu với khối lượng lớn Nó diễn tả mồi quan hệ tường minh giữa các dữ liệu và được biểu diễn dưới dạng một mệnh

để logic (công thức, luật, quy tic, mệnh đề mang tính chân lý hay phổ biến, ) Chính vì vậy, chúng ta rất cần nghiên cứu, tìm tòi, phát hiện trì

thức từ bàng đống số liệu thống kê, nu không chúng ta sẽ ngập chìm trong

biển dữ liệu như nhà bác học Karan Sing đã cảnh báo

Người ta phân ra nhiều dạng tri thức Ngồi tri thức mơ tả cho biết một đổi tượng, sự kiện, vẫn đề, khái niệm được thấy, cảm nhận, cấu tạo

như thể nào (con người có 2 tay, 2 mắt, trí thức sự kiện khẳng định về

một sự kiện, khái niệm nào đó trong một phạm vỉ nhất định (mặt trời mọc

ở đẳng đông, tam giác có 3 góc 60), trong CSDL người ta quan tâm nhiều

đến trì thức thi tục nhằm diễn tả phương pháp, các bước thực hiện, cách giải quyết một vấn đề (thuật toán, thuật giải), đặc biệt là tr thức Heuristic

(một đạng trì thức cảm tính), Các trì thức thuộc loại Heuristic này thường

©ó dạng ước lượng, phỏng đoán và thường được hình thành thông qua kinh

nghiệm, thử nghiệm

1.1.2 Phát hiện trì thức

“hát hiện tr thức (Knowledge Discover) là một lĩnh vực nghiên cứu

Trang 12

a

trình àn trí thức từ dữ liệu 45

hiện trì thức vốn là hoạt động của trí tuệ con người; từ khi xuất hiện máy

tính điện tử, các hoạt động đó từng bước hoặc từng phần được mõ phỏng để có thể thực hiện trên máy tính Trong những năm gắn đây, với việc tin học

hóa rộng rãi và nhanh chóng, nhiều CSDL kim đã được tích lũy trong nhiễu

lĩnh vực kinh tế, xã hội và nhu cầu khai thác các nguồn dữ liệu phong phú

đó đễ phát hiện được các tri thức hữu ích giúp cho việc làm quyết định ngày càng trở nên cấp thiết Phát hiện trí thức trở thành một lĩnh vực nghiên cứu được sự quan tâm rộng rãi và sử dụng nhiều phương pháp thuộc nhiều ngành khác nhau như phân tích thống kê, nhận dạng, trí tuệ nhân tạo, mạng Bayes, mang no-ron, tinh toán tiến hóa, [58]

Phát hiện trí thức từ dữ liệu (Knowiedge Discovery from Data - KDD)

Ja qué trình nhận biết cái logic, cái mới lạ, những trỉ thức tiểm tàng hữu ích

tir CSDL, và cuối cùng là việc hiểu được các mẫu, các mô hình trong dữ

liệu Theo Fayyad, Platetsky-Shapiro, Smyth (1996): *KDD là việc ích

chọn (extraerion) tự động trì thức còn ẩn dấu, chưa quan sát được từ một

khối dữ liệu lớn”

11.2 QUÁ TRÌNH PHÁT HIỆN TRI THỨC

Phát hiện trì thức là một quá trình bao gồm một dãy các bước lặp

(giai đoạn) sau [28]: 1, Lâm sạch dữ liệu 2 Tích hợp dữ liệu 3 Chọn lựa dữ liệu 4 Chuyên đổi dữ liệu 5 Khai phá dữ liệu 6 Đánh giá các mẫu 7 Trình diễn trì thức

Khởi đầu của quá trình phát hiện trì thức là tìm hiểu lĩnh vực ứng dụng

và hình thành bài toán, kết quả của bước khởi đầu này là những quyết định

cần trích lọc những tri thức hấp dẫn nào, đồng thời dự kiến các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và 'bản chất của dữ liệu

Trang 13

16

Khai ht ph rigs dữ,

Các bước 1 - 4 được trình bày ở trên là các dạng khác nhau của tiỀn xử lý, ở đây dữ liệu được chuẩn bj dé khai phá gm các bước: thu thập dữ liệu,

trích lọc dữ liệu, làm sạch và tiền xử lý dữ liệu, chuyển đối dữ liệu

Dữ liệu được thu thập ở dạng thô từ các nguồn dữ liệu có thể là từ các kho dỡ liệu hay nguồn thông tin Irtemet Một số tác giả gọi bước nhỏ này là bước “gom đờ liệu (gathering)”

Dữ liệu cần phải làm sạch để khắc phục đối với trường dữ liệu rỗng, dư

thừa hoặc dữ liệu không hợp lệ Giai đoạn "làm sạch và riễn xử lý di liệu (cleansing preprocessing preparation)” 1d giai dogn hay bi sao ling, nhưng

thực tế nó là một bước rất quan trọng trong quá trình DM Một số lỗi thường mắc phải trong khỉ gom dữ liệu là dữ liệu không đẩy đủ hoặc không thống

nhất, thiếu chặt chẽ Vì vậy, dữ iệu thường chứa các giá tị vô nghĩa và không có khả năng két nối lại với nhau Ví dụ học sinh cắp tiểu học đi bộ đến trường cách nhà 15km Giai đoạn này nhằm xử lý các đữ liệu như trên, “Những dữ liệu dạng này thường được xem là thông tỉn dư thừa, không có

sửa trí Bởi vậy đây là một quá trình rắt quan trọng Nếu dữ liệu không được làm sạchMtiền xử lý/chuẩn bị trước thì sẽ ây nên những kết quả sai lệch

"nghiêm trọng về sau,

“Tích hợp dữ liệu là quan trọng vì dữ liệu được sưu tập từ nhiều nguồn

khác nhau Việc chọn dữ liệu là cằn thiết cho mục tiêu dé ra đồng thời có

thể tỉnh giảm được dữ liệu Kết quả của việc "ích lọc để ligu (selection)"

là các dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó, Việc biểu diễn dữ liệu, chuyển đổi kiểu sao cho phù hợp với giải thuật

khai phá dữ liệu sẽ được áp dựng ở bước sau là những công việc cần thiết Các bước này thường chiếm nhiễu thời gian nhất trong quá trình phát

hiện trị thức

Các công việc tiền xử ý dữ liệu bao gầm:

~ Xử lý dữ liệu bị mắtthiểu: Các dữ li u bị thiếu sẽ được thay thé bởi

các giá trị thích hợp

¬y khử bỏ trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ, Kỹ thuật

Trang 14

~ Giảm nhiễu: đữ liệu nhiễu và các đổi tượng tách rời khỏi phân bố

chung sẽ bị loại bỏ khỏi tập dữ liệu

- Chuẩn hóa: thông thường là chuẩn hóa miễn giá trị của dữ liệu cho

phủ hợp

~ Rời rạc hóa: chính là việc biến đôi các dữ liệu dang số về dữ liệu với

tej roi rac

~ Trích rút và xây dựng đặc trưng mới từ các thuộc tỉnh đã có ~ Giảm chiều không gian thuộc tính: là loại bỏ bớt các thuộc tính chứa ft thong tin,

các

Trong giai đoạn-“chuyển đổi dữ liệu (transformation)”, dữ liệu có thể

được tổ chức và sử dụng lại Mục đích của việc chuyển đổi đữ liệu là làm

cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu

Bước 5, khai phá dữ liệu, là bước quan trọng nhất trong tiến trình phát hiện tri thức Kết quả của bước này là trích chọn được các mẫu và/hoặc các

mô hình Ẩn dưới một khối lượng lớn dữ liệu Một *zuổ hinh” c6 thé là một biểu điễn cấu trúc tổng thể một thành phẫn của hệ thống hay cả hệ thống

trong CSDL, hoặc là một miều tả cách dữ liệu được nảy sinh Còn một

“md ta một cầu trúc dữ liệu cục bộ có liên quan đến một số biến (chỉ tiêu) và một số trường hợp trong CSDL

Bước khai phá dữ liệu có thể tương tác với NSD hoặc một cơ sé tri

thức Các mẫu quan tâm được trình điễn tới NSD va có thể được lưu trữ như những trí thức mới trong cơ sở tri thức đó Chúng ta thống nhất với nhau

một quan điểm về chức năng khai phá dữ liệu: khai phá dữ liệu là một quá

trình phát hiện trí thức hắp dẫn từ khối lượng lớn dữ liệu được chứa trong

CSDL, kho dữ liệu hoặc những kho chứa thông tin khác Trong bước này,

Trang 15

18 Khai phá dữ khái niệm), trí tuệ nhân tạo, nhận dạng, phân tích thống kê, sử dụng nhiều

phương pháp khác nhau như phương pháp trực quan là hiển thị hoặc phương pháp mô hình hóa Nhìn chung, việc thực hiện bước này rất khó và cần

nhiều công sức

Phat hiện và trích chon mdu dit ligu (Pattern Extraction and Discovery) la mot bude tu duy trong quá trình phát hiện tri thức Ở trong

giai đoạn nảy nhiều thuật toán khác nhau đã được sử dụng để chọn các mẫu từ dữ liệu Thuật toán thường dùng để trích chọn mẫu là thuật toán phân loại

cử liệu, kết hợp dữ liệu, thuật toán mô hình hóa dữ liệu tuần tự

Bước 6, đánh giá các mẫu, thực hiện việc kiểm định dựa vào mục tiêu

ban đầu của ứng dụng Tắt nhiên chỉ có N$D hoặc chuyên gia về lĩnh vực

đó mới có khả năng đánh giá Bước này thực hiện với mục đích nhằm hiểu

ð bản chất các trí thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự

đoán Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù

hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng Các kết quả thụ

được cần đạt tới độ dễ hiểu cao, có thể đánh giá được theo những tiêu chuẩn

nào đó

Đánh giá kết quả (evaluation oƒ resul) là giai đoạn cần thiết trong quá

trình phát hiện tri thức Ở giai đoạn này các mẫu dữ liệu được chiết xuắt ra

bởi phần mềm khai phá dữ liệu Không phải mẫu dữ liệu nào cũng hữu ích,

đôi khi nó còn bị sai lệch Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những trỉ thức cẰn thiết

Bước 7, trình diễn trì thức, bao gồm việc hiển thị kết quả hoặc dich kết ua dé hiểu và trình diễn Trong bước này, các tỉ thức vừa mới khám phá sẽ

cđược cùng cổ, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung

đột tiềm năng trong các tì thức đó Các mô hình rút ra được đưa vào những hệ

thống thông ỉn thực tế dưới dạng các mô-đun hỗ rợ việc đưa ra quyết định Quá trình phát hiện trì thức có thể được diễn tả chỉ tiết như hình 1.1:

Các bước (giai đoạn) của quá trình phát hiện tr thức có mỗi quan hệ

Trang 16

Chương 1: Quá trình phát hiện trí thức từ dữ liệu 19 dung trong bước trước có thể ảnh hưởng đến hiệu quả của các giải thuật

được sử dụng trong những bước tiếp theo, Các bước của quá trình khám phá

trị thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được

Trang 17

Chuong 2

TONG QUAN VỀ KHAI PHÁ DỮ LIỆU

2.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU

2.11 Dữ liệu

Trong máy tính, thuật ngữ dữ liệu được xem như là các đặc tính được

biết đến mà có thể ghi lại và lưu trữ trên các thiết bị ghỉ nhớ của máy tính Dif ligu là những mô tả về sự vật, con người và sự kiện trong thể giới thực

Dữ liệu bao gồm số, ký tự, văn bản, hình ảnh, để họa, âm thanh, đoạn

phim có một giá trị nào đó đối với NSD và chúng được lưu trữ, xử lý

trong máy tính [4]

Vĩ đụ:

- Dữ liệu về khách: tên, địa c thoại, thể tín dụng

~ Dữ liệu về xe ô tô của khách: hãng xe, đời xe, năm sản xuất ~ Dữ liệu về nhật ký sửa chữa: ngày phục vụ, tên thợ sửa chữa, số tiền

thanh toán

“Trong hoạt động kinh tế xã hội của con người, người ta thường chia ra hai loại dữ liệu là loại dữ liệu phản ánh cầu trúc nội bộ của cơ quan (nhân oq, nha xưởng, thiết bị, dữ liệu ít biến động) và loại dữ liệu phản ánh hoạt

động của tổ chức (sản xuất, mua bán, giao địch, ) Trong doanh nghiỆp, không kể con người và thiết bị, dữ liệu củng với xử lý là ai thành phần cơ

bản của hệ thông: dữ liệu thường dùng đẻ ghỉ nhận thực trạng

2.1.2 Khai phá dữ liện

“Theo bách khoa toàn thư, khai phd di ligu (DM) là khâu chủ yếu trong,

quá trình phát hiện trỉ thức từ dữ liệu đễ trợ giúp cho việc làm quyết định trong quản lý DM sử dụng nhiều phương pháp của phân tích thống kê, của

Trang 18

ch

1 an vd khai phá dữ, 2

lý thuyết nhận dạng, của các hệ học, các mạng nơ-ron nhân tạo nhằm phát

biện các mẫu hình tri thức trực tiếp từ các kho dữ liệu DM và phát hiện tri

thức là những hướng nghiên cứu mới trong tổ chức và khai thác các hệ

thống thông tin và trợ giúp quyết định

Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm

1989, Có rất nhiều định nghĩa khác nhau về DM đã được đưa ra Theo nghĩa

đơn giản nhất, DM là việc trích lọc tri thức từ một lượng lớn đữ liệu Nó còn

có một số tên gọi khác như “trích chọn trị thức”, "phân tích dữ liệu /mẫu”, ““khảo cổ dữ liệu”, "nạo vét dữ liệu”,

Giáo sư Tom Mitchell đã đưa ra định nghĩa về DM như sat

việc sử dụng dữ liệu lịch sử dé khám phá những quy tắc và cải thiệt

quyết định trong tương lai" Với một cách tiếp cận thực tế hơn, tiến sĩ

Fayyad đã phát biểu: “DM rhường được xem là việc khám phá trì thức trong

các CSDI, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng là hữu ích, dưới dạng các quy luật ràng buộc, quy tẮc'

trong CSDL” Các nhà thông kê thì xem “DM như là một quả trình phân

tích được thiết kế thăm đồ một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đỏ sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các

mẫu đã phát hiện được cho tập con mới của dữ lị

Nói chung, DM là cốt lõi của quá trình phát hiện tri thức Nó gồm có 'các giải thuật DM chuyên dùng, một số quy định về hiệu quả tính toán chap nhận được DM nhằm tìm ra những mẫu mới, mẫu có tính chất không tằm thường, những thông tin tiểm ẩn mang tính dự đoán chưa được biết đến và

có khả năng mang lại ích lợi Nói gọn hơn, DM là việc tìm kiếm các kiến

thức/các mẫu hấp dẫn trong kho dữ liệu

DM là hoạt động trọng tâm của quá trình phát hiện tr thúc

2.2 CAC LINH VUC LIEN QUAN ĐẾN PHÁT HEN TRI THỨC VÀ KHAI PHA DO LIEU

Phat hiện trí thức và khai phá dữ liệu được ứng dụng trong nhiều ngành

và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giảo dục,

thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở trỉ thức cho hệ chuyên gia

Trang 19

22 Khai phá dữ liệu

lĩnh vực thống kê, dựa nhiễu vào nền tăng lý thuyết của nó, cũng như tập

trung vào kiểm định những giả thiết, sử dụng các phương pháp thống kê đề

phát hiện ra các mẫu, các luật bên rong dữ liệu KDD & DM cũng liên quan

chặt chẽ đến máy học, dựa nhiều vào hewistics (phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm, tìm giải pháp qua thử nghiệm và cải tiển) và tập trung vào cải tiến hiệu quả của giải thuật học Kho dữ liệu và các công cụ phân tích trực tuyến cũng liên quan chặt chẽ đến KDD & DM = os - Co Hành 2.1 Các lĩnh vực liên quan đắn DM & KDD Phương pháp hiển tị 0 bà

2.3 CÁC HỆ THỐNG KHAI PHÁ DỮ LIỆU VÀ KIẾN TRÚC TỔNG QUÁT CỦA CHUNG

2.3.1 Phan loại các hệ thống khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực liên ngành, chịu sự tác động của nhiễu ngành kiến thức như đã nói ở trên Trước hết, do phụ thuộc vào cách tiếp

cận khai phá dữ liệu đã sử dụng dẫn tới việc phải ding các kỹ thuật của

nhiều ngành khác chẳng hạn như là mạng no-ron, tập mở, lý thuyết tập thô, việc trình diễn trí thức, chương trình quy nạp logic, Tiép đó, do phụ thuộc

vào loại dữ liệu được khai phá hoặc ứng dụng khai phá dữ liệu triển khai

xiên hệ thống khai phá dữ liệu phải tích hợp các kỹ thuật từ các phân tích dữ

liệu không gian, trích rút thông tn, nhận biết mẫu, phân tích ảnh, xử lý tín hiệu, đồ họa vĩ tính, công nghệ Web, kinh Š, thương mại, tin sinh học hoặc

Trang 20

Chương 2: Tổng quan vb khai phá dữ liệu 2

Nhờ việc đóng góp của nhiều ngành kiến thức khác nhau cho khai phá

dữ liệu nên việc nghiên cứu khai phá dữ liệu đã được kỳ vọng sinh thành

một lượng phong phú các hệ thống khai phá dữ liệu Do vậy cần phải phân định rõ ràng các hệ thống khai phá dữ liệu có khả năng giúp NSD phân biệt

rõ rằng và xác định việc kết nối tốt nhất với nhu cầu của họ Các hệ thống

khai phá dữ liệu có thể phân loại theo các tiêu chuẩn khác nhau như sau;

1 Theo loại của CSDL đã khai phá

+ Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống

khai phá dữ liệu giao địch, bệ thống khai phá dữ liệu quan hệ - đối tượng,

hệ thống khai phá dữ liệu kho dữ liệu)

+ Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống khai phá dữ liệu chuỗi thời gian, hệ thông khai phá dữ liệu văn bản, hệ thống khai phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai phá dữ liệu Web)

+ Các loại CSDL, riêng cho mỗi ứng dụng, 2 Theo loạÌ của trí thức đã phát hiện

+ Dựa trên các chức hăng khai phá dữ liệu như đặc trưng hóa, tách lọc,

kết hợp và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân tích tiến hỏa Một hệ thống khai phá dữ liệu toàn diện

thường cung cấp đa chức năng hoặc tích hợp nhiều chức năng

+ Dựa trên hạt nhân hoặc tính trừu tượng của tí thức được khám phá

bao gồm các trí thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên

thủy (ờ mức dữ liệu thô), hoặc trì thức ở mức da ting (xem xét một số mức trừu tượng) Một hệ thông khai phá dữ liệu tiên tiền sẽ rất tiện cho việc phát

hiện tri thức ở đa mức trừu tượng Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biển) ngược với các bắt quy tắc (loại trừ, ngoại lai)

Nói chung, các quy tắc khai phá dữ liệu mô tả ìm, sự kết hợp,

phân tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các

phần tử ngoại lai các phương pháp này cũng có thể giúp cho việc khám phá các phần tử ngoại lai

Trang 21

ma pe

Theo loại kỹ thuật đã sử dụng

+ Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như các hệ tự trị, các hệ thống thăm dò tương tác

+ Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ:

liệu đã sử dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy

học, thống kê, hiển thị, nhận dạng mẫu, mạng nơ-ron,

Một hệ thông khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên hợp nhiều cách tiếp cận riệng lẻ

4 Theo logi céc ứng dụng đã thích ứng

Các hệ thống khai phá dữ liệu có được trang bị tiếng cho ngành tài chính, giao thông liên lạc, thị trường vốn, thư tín điện tử,

Các ứng dụng khác nhau thường đồi hỏi sự tích hợp các phương pháp

đặc tả, Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không thể có đủ các nhiệm vụ khai phá đặc trưng theo miễn

2.3.2 Kiến trúc của một hệ thống khai phá dữ liệu

Kiến trúc của một hệ thống khai phá dữ liệu điển hình có thể có các thành phần như hình 2.2 [28]

- Cơ sở đề liệu, kho dữ liệu hoặc các lưu trữ thông tìn khác (Databases, Data warehouse, ): Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tứn khác Các kỹ thuật âm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dit này

- Máy chủ CSDIL hay máy chủ kho dữ liệu (Database or warehouse

server): May chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai phá của người dùng

Trang 22

Chương 2: T( m về khai phá dữ 25 ~ Kỹ nghệ khai phá dữ liệu (Data mining engine): Một hệ thông DM cần phải có một tập các mô-dun chức năng để thực hiện công việc như: đặc trưng hóa, kết hợp và phân tích tường quan, phân lớp, dự đoán, phân cụm, phân tích ngoại lai và phân tích tiến hóa

~ Mô- lun đánh giá mau (Pattern evaluation): Bộ phận này thực hiện do mức quan tâm và tương tác với các mô-đun DM để duyệt tìm các mẫu đáng được quan tâm Nó có thé dùng các ngưỡng về độ quan tâm đẻ lọc mẫu đã khám phá được Cũng có thể mô-đun đánh giá mẫu được tích hợp vào mô-đun khai phá, tùy theo sự cài đặt của phương pháp khai phá được đùng

~ Giao diện đồ họa người dùng (Graphical user imerƒface): Bộ phận

này cho phép người đùng giao tiếp với hệ thống DM bằng việc định rõ một

Trang 23

26 Eat phe ar tig hai phá dữ

2.4, CAC LOAI DG LIEU CÓ THỂ KHAI PHÁ ĐƯỢC

Các loại dữ liệu có thé khai phá được bao gồm C$DL quan hệ, kho dữ

liêu, CSDL giao dịch, CSDI quan hệ kiểu đối tượng, CSDL thời Ìan,

CSDL chuỗi, CSDL theo chuỗi thời gian, CSDL không gian và thời gian, CSDL van bin, CSDL da phuong tiện, CSDL hỗn hợp và CSDI, di sin,

các dòng truyền tải dữ liệu, World Wide Web,

Ngoài CSDL quan hệ, các CSDL khác như kho dữ liệu, giao dịch,

được gọi là CSDL nâng cao do cầu trúc phức tạp của chúng

2.4.1 CSDL quan hg

Một hệ CSDLL cũng được gọi là một hệ quan tr} CSDL, bao gồm một bộ

sưu tập dữ liệu có quan hệ lẫn nhau chính là một CSDL và một tập các chương trình phần mềm để quản lý và truy nhập dữ liệu Các chương trình

phần mềm bao gồm các cơ chế để xác định các cầu trúc CSDL, để lưu giữ cdữ liệu, chia sẻ hoặc truy nhập dữ liệu, để dim bio tinh ben vững và an toàn

của các thông tin dù cho hệ thống bị xâm phạm hoặc bị truy nhập trái phép Một CSDL quan hệ là một bộ sưu tập các bảng với tên duy nhất, mỗi

bảng chứa đựng một tập thuộc tính (các cột hoặc các trường) và thường lưu

giữ một tập lớn các bộ (các bản ghỉ hoặc các dòng) Mỗi bộ trong một bảng

quan bệ biểu diễn một đối tượng được xác định bằng một khóa duy nhất và được mô tả bằng một tập các giá trị thuộc tính Một mô bình dữ liệu ngữ

nghĩa, như mô hình dữ liệu thực thể - mỗi quan hệ, mô hình E-R thường được xây dựng cho các CSDI, quan hệ Một mô hình E-R biểu diễn CSDL như một tập các thực thể và các mỗi quan hệ của chúng

Khi khai phá dữ liệu được áp dụng vào CSDI, quan hệ, chúng ta có thể di xa hơn nữa bằng việc nghiên cứu về xu thé hoặc các mẫu dữ liệu Ví dụ,

sác hệ khai phá đữ liệu có thể phân tích dữ liệu khách hing để dự đoán rủi ‘o tin dung của các khách hàng mới dựa rên thu nhập, tuổi, thông tìn tín

dung trude đây của ho Các hệ thống khai phá dữ liệu cũng có thể phát hiện

Séc độ lệch, như các mặt hàng mà doanh thu của nó hy vọng là khác xa so với năm Các CSDL quan hệ là một trong số các kho chứa giàu thông

Trang 24

Chương 2: Tổng quan về khai phá đữ liệu a7 2.4.2 Kho dữ liệu

Giả sử rằng Allelectronies là một công ty quốc tế nhiều chỉ nhánh trên thể giới Mỗi chỉ nhánh có một tập dữ liệu riêng Ông Chủ tịch công ty yêu cầu cung cấp phân tích về việc bản bảng của công ty theo từng mặt hàng, theo từng chỉ nhánh theo quý Đây là nhiệm vụ khó khăn Khó khăn hơn khi nhiễu dữ liệu còn chưa được cập nhật vào kho chứa

'Nếu công ty đã có kho dữ liệu, nhiệm vụ này trở nên dễ dàng Một kho dữ liệu là một kho chứa thông tin được sưu tập từ nhiễu nguồn, được cắt giữ

theo một sơ đồ thống nhất, và thông tin thường đặt ở những vị trí đơn lẽ Kho dữ liệu được cấu trúc qua một quá trình làm sạch dữ liệu, tích hợp dữ

liệu, chuyển hóa dữ liệu, tải dữ liệu và làm tươi dữ liệp định kỳ Hình 2.3

mô tả một khung làm việc điển hình để cấu trúc va sử dụng một kho dữ liệu

cho công ty

Hinh 2.3 Khung làm việc dién hinh của kho dữ liệu đành cho công ty 'Để dễ dàng đưa ra quyết định, dữ liệu trong kho được tổ chức xung quanh các đối tượng chỉnh như là khách hàng, bàng hóa, nhà cung cấp và hoạt động Dữ liệu được lưu để cung, cắp thông tin tir một viễn cảnh lịch sử (vi dụ như cách đây 5 - 10 năm) và đã được tóm lược, Ví dụ, để có đầy đủ

chí tiết của từng giao địch bán hàng, kho dữ liệu phải lưu một tóm lược về các phiên giao địch mỗi kiểu mật hàng cho từng cửa hàng hoặc chung cho từng khu vực

Trang 25

28 thea he tig Khai phd

tính trong sơ đồ, mdi ô chứa giá trị của một độ đo tụ hợp nào đó, chẳng hạn như khối lượng bán hàng Cấu trúc vật lý thông thường của một kho dữ liệu có thể là một kho dữ liệu quan hệ hoặc là khối dữ liệu đa chiều Một khối dữ liệu cung cấp một khung nhìn đa chiêu về dữ liệu và cho phép tính trước và

xử lý nhanh dữ liệu đã tóm lược

Vancouver, ‘ein Tine: quarters

(e) Biểu diễn dữ liệu tóm lược cho

Sines ay/ crocs Pulte Zr “+ esi, a Pe =| ‡s Ễ mm ” 2 Fe = os

eT eormaer [secur me | Memy

F em oes) vay 9m fam ps) (©) Bidu din eu lém tất nhờ các pháp ốn -8Đl-doim và ol-up từ khối dữ lộu rong bình s

Trang 26

Ghương 2: Te mộ 29

khai

phân tích trục tuyến, hoặc OLAP Các phép toán của OLAP sử dụng kiến thức nền khi quan tâm miễn dữ liệu được nghiên cứu để trình diễn dữ liệu theo các mức trừu tượng khác nhau Do vậy, các phép toán cung cấp các quan điểm sử dụng khác nhau Ví dụ các phép toán của OLAP bao gồm chỉ lúa (dril-down) va gdp hoa (roll-up) nhằm cho phếp người dàng xem ddữ liệu ở các mức tôm lược khác nhau, Mặc dù các công cụ của kho dữ liệu đã hỗ trợ phâ+ tích dữ liệu, chúng ta vẫn cần bổ sung các công cụ khai phá dữ liệu để phân tích dữ liệu ở mức sâu hơn vả tự động hóa nhiều hơn

24:3 CSDL giao dịch

‘Noi chung, một CSDL giao dịch gồm các tập mà mỗi bản ghỉ biểu diễn một giao dịch Một giao dịch điễn hình gồm một định danh giao địch duy nhất (giaodichID) và một danh sách các chỉ mục tạo nên giao địch (như là các chỉ mục đã mua sắm trong cửa hang)

Bang 2.1 Một phần CSDLL giao tác cho việc bán hàng đồ điện tứ: 'Giaodieh.1D | Danh sách các chimue,!D 7100 1, 18,18, 116 7200 12.18 mm |

CSDL giao tic có thể có các bảng phụ kết hợp với nó, các bảng phụ chứa thông tin khác liên quan tới việc bán hàng như ngày giao dich, số hiệu

khách, số định danh của người bán và của chỉ nhánh có giao dich, Nhờ CSDL, này, chúng ta có thể trả lời câu hỏi “chỉ cho tôi tất cả các mặt

hàng mà ông Lê đã mua” hoặc có bao nhiêu giao dịch có mặt hàng l3”, “những mặt hàng nào thường được bán cùng nhau?”, “có bao nhiêu giao dịch máy tính và máy in được mua củng nhau?", Một hệ thống truy xuất dữ liệu không thể trả lời tất cả các câu hỏi đại loại như vậy, nhưng các hệ thống khai phá dữ liệu đối với dữ liệu giao dịch có thể làm bằng việc nhận ra các tập mục thường xuyên, tập các mặt hàng thường bán cùng nhau

2.4.4 Cơ sử dữ liệu quan hệ kiểu đối tượng

Các CSDIL quan hệ kiểu đối tượng được cấu trúc đựa trên mô hình dữ liệu quan hệ - đối tượng Mô hình này mở rộng mô hình quan hệ bằng việc

cung cấp một kiểu dữ liệu phong phú để xử lý các đối tượng tổ hợp và

Trang 27

hưởng đối tượng Vi hầu hết các ứng dụng CSDL phức tạp cần xử lý các đối tượng và các cấu trúc phức hợp, các C$DL quan hệ - đối tượng đã trở nên phổ dụng trong công nghiệp và các ứng dụng

Các mô hình quan hệ - đối tượng thừa hưởng các quan niệm trọng yếu

của các CSDL hướng đối tượng Mỗi thực thể được coi như một đổi tượng

Các đối tượng như nhân viên, khách hang, hoặc mặt hàng Dữ liệu và việc mã hóa liên quan tới đối tượng là được bao gồi trong một đơn vị đơn giản

Mỗi đối tượng được kết hợp với:

~ Một tập các biến mô tả đối tượng Chúng tương ứng các thuộc tính

trong các mô hình thực thể - mồi quan hệ và mô hình quan hệ

Một tập các thông điệp mà đối tượng sử dụng để liên lạc với các dối

tượng khác, hoặc với những hệ thống khác,

- Một tập các phương pháp mà mỗi mô hình thực hiện mã hóa để cài

“đặt một thông điệp Sau khi nhận thông điệp, một giá trị được trả lại

Mỗi đối tượng là một thể hiện của một lớp Các lớp đối tượng có thể được tổ chức theo cây phân cấp lớp/lớp con sao cho mỗi lớp diễn tả các

thuộc tính chung cho các đối tượng trong lớp đó Ví dụ, một lớp người làm

©õ chứa các biển như tên, địa chi, ngày sinh, Giả sử rằng lớp người bán hàng

là lớp con của lớp người làm Một đối tượng người bán hàng sẽ thừa kế tắt

eà các biến của lớp người làm cộng thêm các biển riêng của người bán hàng như nhiệm vụ Như thé, một đặc trưng thừa kế của lớp hưởng lợi thông tin

chia sé

Đối với việc khai phá dữ liệu trong các hệ thống quan hệ - đổi tượng,

các kỹ thuật cần phát triển để xử lý các cấu trúc của đối tượng phức hợp, các kiểu dữ liệu phức hợp, phân cắp lớp và các lớp con, thừa kế thuộc tính, các

phương pháp và các thủ tục,

2.48 CSDL thời gian, CSDL chuỗi, CSDL theo chuỗi thời gian

Một CSDL thời gian điển hình chứa các dữ liệu quan hệ bao gồm các thuộc tính có mồi quan hệ về thời gian Các thuộc tính này có thể bao gồm một vài tính chất thời gian, mỗi tính chất có ngữ nghĩa riêng Một CSDL chuỗi chứa một chuỗi các sự kiện có thứ tự, có hoặc không có chú giải về

Trang 28

hương 2: Tổng quan về khai phá dữ tig 3t dãy các sự kiện sinh học Một CSDL theo chuỗi thời gian chứa một chuỗi các giá trị hoặc các sự kiện đạt được sau một độ đo lặp lại về thời gian

(ví dụ như bàng giờ, hông ngày, hàng tuần) Các ví dụ như đữ liệu được sưu

tập từ việc thay đổi kho, điều khiển đầu tư, quan sát các hiện tượng tự nhiên (như nhiệt độ và gi6)

Các kỹ thuật khai phá dữ liệu có thể được dùng để tìm các đặc trưng cia quá trình tiến hóa của đối tượng hoặc khuynh hướng thay đổi của đối

tượng trong CSDL Như thế thông tin có thể được sử dụng để ra quyết định

hoặc lập kế hoạch chiến lược Ví dụ, việc khai phá các dữ liệu nhà băng giúp ta xây dựng lịch biểu cho người thu ngân tùy theo cường độ giao địch

“của khách hàng Các dữ liệu thay đổi trong kho có thể được khai phá để hé

mở khuynh hướng giúp chúng ta lên kế hoạch chiến lược đầu tư (ví dụ lúc ảo là thời gian tốt nhất để mua sắm hàng điện tử?) Như thế các phân tích

điển hình đồi hỏi xác định các hạt nhân thời gien Ví dụ, thời gian có thể

phân rã theo các năm tài chỉnh, năm lịch Các năm có thể cũng được phân theo quý hoặc thắng

2.4.6 CSDL kh6ng gian và thời gian

'CSDL không gian chứa các thông tin liên quan đến không gian Ví dụ

như các dữ liệu về địa lý (bản đồ), việc tích hợp rất lớn, việc thiết kế CSDI,

cổ sự trợ giúp của máy tính, các CSDL y tế, hình ảnh vệ tỉnh CSDL khéng gian có thể được biểu diễn ở dạng vạch quét, chứa dựng các bản để bít n

chiều hoặc các bàn đồ ảnh điểm Ví dụ một ảnh vệ tỉnh 2 chiều có thể biểu

diễn như một dữ liệu vạch quét, nơi mỗi ảnh điểm ghỉ lượng mưa trong một

mùa Các bàn đỗ có thể biểu diễn ở dạng véc-tơ, nơi các con đường, cây

cầu, các tòa nhà, các hồ được biểu diễn như các hợp nhất hoặc các vật phù các cấu trúc địa chất cơ sở, như các điểm, đường, đa giác, các và các

mạng lưới được hình thành bởi các thành phần này

'CSDL địa lý có rắt nhiều ứng dụng, từ việc lập kế hoạch quản lý rừng, và sinh thái tới việc cung cấp các thông tin dịch vụ công cộng về vị trí của các cáp điện và điện thoại, đường ống và các hệ thống công rãnh Thêm vào đó, CSDL, địa lý còn được sử dụng phổ biến trong hệ thống vận tải Một ví dụ về hệ thống như thế là tắc xi sẽ lưu bản đồ thành thị với thông tín quan

tâm đến đường một chiều, các tuyển đường gợi ý để di chuyển từ điểm A

Trang 29

32 “Khai phá dữ liệu

đến B trong lúc cao điểm, vị trí khách sạn và bệnh viện cũng như vị trí hiện

tại của lái xe

Loại khai phá dữ liệu nào có thể được thực hiện trên CSDL không

gian? Việc khai phá dữ liệu có thể khám phá các mẫu mô tả các đặc trưng của các tòa nhà ở gần một vị trí đã được chỉ rõ, như là công viên chẳng hạn

Các mẫu khác có thể mô tả khí hậu của vùng núi cao Việc phần loại theo

không gian có thể được thực hiện để xây dựng các mơ hình dự đốn dựa trên tập đặc trưng các đối tượng không gian “Khôi dữ liệu không gian” có

thể được xây dựng để tổ chức dữ liệu thành các cấu trúc đa chiều và các cây

phân cấp, trên đó các toán từ của OLAP (như phép tổng hợp, chỉ tiết hóa) có

thể thực biện

Một CSDL không gian lưu các đối tượng không gian mà có thay đôi vẻ

thời gian được gọi là CSDI, không gian theo thời gian, trong đó người ta

quan tâm đến thông tin hắp dẫn Ví dụ, chúng ta có thể nhóm các đối tượng chuyển động và xác định một vài xe cộ chuyển động khác thường, hoặc

phân biệt một khủng bồ sinh học như cũm trên khoảng rộng địa lý của bệnh ật với thời gian

2.4.7 CSDL văn bản

CSDL van ban la CSDL có chứa các mô tả từ cho đối tượng Các mô tả từ này thường không phải là các từ khóa đơn giản nhưng là những câu hoặc

những đoạn khá dài, như là các mô tả sản phẩm, các báo cáo về lỗi và gỡ lỗi, các thông báo cảnh cáo, các báo cáo tôm tắt, các ghi chú, hoặc các tai

liệu khác Các CSDL, văn bản có thể là phi cấu trúc cao (như một số trang ‘Web trên WWW) Một vai CSDL van bản có thể có chỗ được cấu trúc theo

kiểu nào đấy như nửa cấu trúc (như các thông điệp e-mail và nhiều trang

Web HTML/XML), có chỗ lại có cấu trúc (như các CSDL mục lục thư

viện) CSDL văn bản với cấu trúc cao có thể được cài đặt bằng việc sử dung

các hệ CSDLL quan hệ

Trang 30

Chương 2: Tổng quan sề khai phá dữ liệu 3

truy xuất thông tin và việc xây dựng hoặc sử dụng cây phân cấp một cách chính xác cho dữ liệu van bản (như trong hóa sinh, y tế, luật hoặc kinh tế) 2.4.8, CSDL đa phương tiện

Các CSDL đa phương tiện lưu trữ các dữ liệu ảnh, âm thanh, hoạt hình Chúng được dùng trong các ứng dụng như hệ thông truy xuất dựa trên nội dung của ảnh, hệ thống thư thoại, hệ thống đoạn phim theo yêu cầu, World Wide Web, các giao điện người dùng dựa trên bài phát biểu mà các giao điện này nhận ra các lệnh nói CSDL đa phương tiện phải hỗ trợ các đối

tượng lớn, vi các đối tượng dữ liệu như đoạn phim có thể lưu trữ tới hàng Eigabytes Việc lưu trữ đặc biệt và các kỹ thuật tìm kiếm cũng được đồi hỏi 'Vì dữ liệu các đoạn phim hay âm thanh đòi hỏi truy xuất thời gian thực ở một tỷ lệ đều đặn và định trước đễ tránh ảnh hay các lỗ hông âm thanh và

các tràn đầy bộ nhớ hệ thống, tức là dữ liệu được dành cho dữ liệu truyền thông liên tực

Đối với việc khai phá dữ liệu đa phương tiện, các kỹ thuật lưu trữ và

tim kiếm cần được tích hợp với các phương pháp khai phá dữ liệu chuẩn

Các cách tiếp cận hứa hẹn bao gồm việc xây dựng các khối dữ liệu đa phương tiện, trích rút các đa đặc trưng từ dữ liệu đa phương tiện và kết nổi mẫu trên cơ sở đồng dạng

2.4.9 CSDL hén hgp va CSDL di sin

Một CSDLL hỗn hợp chứa một tập các CSDL thành phần tự tị, có quan hệ lẫn nhau Các thành phần đó liên lạc với nhau để thay đổi thông tín và dap img truy vấn, Các đối tượng trong một CSDL thành phần có thể khác biệt hẳn các đối tượng trong CSDL thành phần khác, tạo nên những khó khăn khi so sánh các ngữ nghĩa của chúng trong CSDL hỗn hợp

"Nhiều doanh nghiệp đòi hỏi dữ liệu dĩ sản như là một kết quả của một lich sir dai ciia phát triển CNTT (bao gồm ứng dụng về phần cứng và các bệ

“điều hành khác nhau) Một dữ liệu di sản là một nhóm các CSDL hỗn hợp Chúng là tổ hợp nhiều loại hệ thống dữ liệu khác nhau, như là 'CSDL quan

hệ, hướng đối tượng, phân cắp, mạng, đa phương tiện boặc hệ thống các tệp

'CSDL hến hợp trong một CSDL dị sản có thể kết nổi bằng mạng máy tính: nội bộ hoặc mở rộng

Trang 31

Khasi phá dữ liệu

2.4.10 Các dòng truyền tải dữ liệu

Nhiều ứng dụng bao gồm việc phát sinh và phân tích về một loại dữ

iệu mới được gọi là dữ liệu dòng truyền tải, ở đây luồng dữ liệu ở bên trong và bên ngoài của một nền tảng quan sát (hoặc cửa sổ) một cách động Do vậy các đồng truyền tải dữ liệu có các đặc trưng thống nhất sau: lớn hoặc khối lượng không thể xác định, thay đổi động, luồng chảy trong và ngoài theo thứ tự định sẵn, thời gian đáp ứng nhanh Ví dụ như các loại đa dang về dữ liệu khoa học, kỹ nghệ, dữ liệu chuỗi thời gian và dữ liệu được sản xuất

trong các môi trường động khác, như nguồn năng lượng cung cấp, mạng giao thông, thông tin liên lạc, các dòng kích trang Web, quan sát thời tiết và

môi trường

Vi cée dong dữ liệu là không được lưu trữ bình thường trong một loại

kho chứa dữ liệu nào đấy nên đây là một thách thức không nhỏ đối với các

nhà nghiên cứu Hiện nay, nhiễu nhà nghiên cứu đang điều tra nhiều vấn đề

liên quan tới việc phát triển các hệ thống quản lý dữ liệu dòng Một mô hình truy vấn điển hình là mô hình truy vấn liên tục, với việc xác định các truy vấn các dòng vào có giá trị không đổi, sưu tập dữ liệu kết hợp, báo cáo tình trạng hiện tại của các dòng dữ liệu và đáp ứng các thay đổi của chúng

Việc khai phá các dòng dữ liệu bao gồm các phát hiện hiệu quả các

mẫu chung và các thay đổi động thái bên trong dữ liệu dong Vi dy, ching ta muốn phát hiện giới thiệu của một mạng máy tính đựa trên di thường của luồng thông điệp mã có thể được phát hiện bằng việc phân cụm các dòng dữ liệu, xây dựng động thái của mô hình luỗng hoặc so sánh các mẫu thường xuyên hiện tại với các mẫu trước đây Hầu hết dữ liệu đồng có mặt ở mức độ trừu tượng khá thấp, do vậy các nhà nghiên cứu thường quan tâm nhiễu hơn đến nhiều mớc trừu tượng và mức trừu tượng cao, Do, vậy, việc phân

tích đa mức, đa chiều trên tuyến sẽ giúp việc khai phá dữ liệu dòng có hiệu

q

2.4.11 World Wide Web

World Wide Web và các kết hợp của nó đã phân phối các dịch vụ thông,

tin nhu la Yahoo!, Google, America Online AltaVista, cung cdp các dịch vụ

Trang 32

ơng 2: Tổng quan về khai phá dữ 36

thông tin du lịch từ một đối tượng kết nối với nhiều đối tượng khác Do vậy, hệ thống cung cấp các cơ hội và các thách thức cho khai phá dữ liệu

Vi dy, hiểu các mẫu truy nhập của NSD sẽ không chỉ giúp đỡ cải thiện thiết kế hệ thống (nhờ việc cung cấp cách truy nhập hiệu quả giữa các đối

tượng có tương quan cao), mã còn hướng dẫn làm quyết định tốt hơn (ví dụ, bằng việc quảng cáo ở những chỗ thích hợp để các tài liệu đó được độc giả thường xuyên ghé qua, hoặc bởi cung cấp việc phân loại khách hàng/NSD và các phân tích hành vi) Khi lấy được các mẫu truy nhập của NSD trong môi trường thông tin được phân phối như thế được gọi là khai phá lợi ích

Web hoặc khai phá Weblog

Mặc dù các trang Web có thể thể hiện vui mắt và thông tin cho người

đọc tính nhân văn, chúng có thể không có cấu trúc cao và thiếu một sơ đồ,

kiểu hoặc mẫu tiền định Do vậy, điều đó gây khó khăn cho máy tính để hiểu ngữ nghĩa của những trang Web linh tỉnh và cấu trúc chúng theo một cách có tổ chức để truy xuất thông tin về ngữ nghĩa và khai phá dữ liệu Các

dịch vụ Web mà cung cắp việc tìm kiểm dựa trên từ khóa sẽ không hiệu

được ngữ cảnh đẳng sau trang Web chỉ có thể giúp người dùng rất hạn chế 'Ví dụ, một nghiên cứu Web dựa trên một từ khóa đơn có thể trả lại hang trăm trang Web có chứa từ khóa đó, nhưng hầu hết các kết quả đó sẽ không, liên quan nhiều tới cái mà NSD muốn tìm

Khai phá dữ liệu có thể hỗ trợ nhiều sự giúp đỡ hơn so với các địch vụ

tìm kiếm Web, Ví dụ, việc phân tích các trang Web có mối liên kết với nhau

có thể giúp chúng ta phân hạng các trang Web theo tẩm quan trọng của chúng, theo sự ảnh hưởng và chủ đề Việc phân cụm và phân loại các trang

Web tự động giúp việc gộp nhóm và phân hạng trang Web theo phương

cách đa chiều dựa trên nội dung của chúng Việc phân tích tính cộng đồng của Web giúp nhận dạng các mạng xã hội Web ẳn, liên lạc và quan sát tiến hóa của chúng, Khai phá Web là sự phát triển các phân tích dữ liệu Web và các phương pháp khai phá hiệu quả Nó có thé giúp chúng ta biết về ví phân bổ thông tin trên Web nói chung, đặc trưng hóa và phân lớp các trang

'Web, phát hiện tính động của Web, sự kết hợp giữa chúng và những mối

quan hệ khác trong các trang Web khác nhau, phát hiện các NSD, các liên

Trang 33

2.5 CAG CHUC NANG KHAI PHA DU LIEU

‘Ching ta đã xem xét nhiều loại CSDL và kho chứa thông tín trến đó khai phá dữ liệu có thể được thực hiện

Các chức năng khai phá dữ liệu đã được sử dụng để chỉ rõ loại mẫu

phải tìm trong các nhiệm vụ khai phá dữ liệu, Về mặt tổng thể, các nhiệm vụ

khai phá dữ liệu có thể được phân loại thành 2 phạm trù: mé td va die dodn, Các nhiệm vụ mô tả cần làm nỗi bật các thuộc tính chung của dữ liệu trong CSDL Nhiệm vụ dự đoán thực hiện các suy luận trên dữ liệu hiện tại để làm các dự báo

Công việc khai phá dữ liệu mô tả sẽ mô tả các tính chất hoặc đặc tính chung của dữ liệu trong CSDL, nghĩa là phân tích và mô tả một tập mẫu đã biết trong khả năng nhận thức của con người nhằm giúp họ hiểu rõ hơn, sâu hơn về dữ liệu

‘Con công việc khai phá dữ liệu dự đoán sẽ thực hiện việc suy luận dựa trên dữ liệu hiện hành dé cho ra các dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mô bình cho phép dự đoán các mẫu mới

chưa biết

2.6 DÁC LOẠI MAU CO THE ĐƯỢC KHAI PHA VA MAU HAP DAN

2.6.1 Tink hap dẫn của mẫu

Một hệ thống khai phá dữ liệu có thể tiểm an hang nghìn hoặc thậm chí bàng triệu các mẫu hoặc luật Vì vậy vấn đề đặt ra tự nhiên là có phải quan tâm đến tắt cả các mẫu? Chúng ta có thể trả lời ngay là không, vì một người

nào đó chỉ quan tâm đến một vài mẫu mà thôi

Câu hỏi thứ nhất đặt ra là: Cái gi tao ra một mẫu hắp dẫn?

Một mẫu là hấp dẫn nếu nó là dễ hiểu, đáng tỉn với mức chắc chắn nào

Trang 34

"hương 2: Tổng quan về khai phá dữ liệu 7

hỗ trợ, thể hiện phần trăm các giao dịch từ một CSDL giao địch mả quy luật

thống kế đem lại Đây chính là xác suất PCKUY), thể hiện một giao dich

chứa cả X và Y, là xác suất của hợp các tập chỉ mục X va Y, Một tiêu chuẩn

“khác đối với luật kết hợp là độ tỉn cậy tức là xác suất tin cậy P(Y/X) - xác

suất mà giao dịch chứa X cũng chứa Y Một cách hình thức, độ hỗ trợ và độ tin cậy được xác định như sau:

‘Support = PXUY), ‘Confidence (X->Y) = P(Y/X)

Nói chung, mỗi tiêu chuẩn về mức quan tâm được kết hợp với một ngưỡng có thẻ điều khiển được bởi NSD, Chẳng hạn, các luật mà không

thỏa mãn một ngưỡng tin cậy thì ta nói 50% là không đáng quan tâm

Mặc dù các tiêu chuẩn khách quan đã giúp được việc nhận dạng mức

hắp dẫn của mẫu nhưng chưa đủ, cần phải có các tiêu chuẩn chủ quan như

tính cần thiết và tính hấp dẫn của mẫu riêng với họ Chẳng hạn các mẫu mô

tả các đặc trưng của khách hing thường mua đồ điện từ chắc chắn là đáng

quan tâm đối với người chào hàng nhưng có thẻ là ít hap dẫn với những nhà phân tích đang nghiên cứu cùng một vấn đề Các tiêu chuẩn về độ quan tâm

có chủ đích được dựa trên những độ tỉn cậy trên dữ liệu của NSD Các tiêu chuẫn này tìm ra các mẫu có khi ngược với độ tin cậy của người dùng hoặc

đem lại thông tin chiến lược giúp ích cho người sử dụng Cuối cùng, các

mẫu được lựa chọn để hành động Mẫu mà hy vọng có thé là đáng quan tâm

nếu chúng khẳng định được giả thuyết rằng NSD mong muốn nó đúng hoặc giếng như linh cảm của người dùng — “

Câu hỏi thứ hai đặt ra là: Một hệ thống khai phá dữ liệu có thể phát

sinh được mọi mẫu hắp dẫn?

Liên quan đến việc hoàn thiện các thuật toán khai phá dữ liệu Đó là điều không thực tế và không hiệu quả đối với hệ thống khai phá dữ liệu để

sinh ra tất cả các mẫu có thể Vì thế, các ràng buộc được cung cấp bởi người

dùng và các phương pháp xem xét khả năng được quan tâm chắc chắn phải

là tiêu điểm nghiên cứu Đối với một số nhiệm vụ khai phá như là sự kết hợp, thường để đảm bảo hồn thiện thuật tốn Việc khai phá theo luật kết

Trang 35

38 Khasi pha dit liệu hợp là một ví du sử dụng các rằng buộc va các phương pháp có thể đảm bảo hoàn thành việc khai phá

Câu hỏi thứ ba đặt ra là: Một hệ thống khai phá đữ liệu chỉ sinh ra các

mẫu hấp dẫn?

Đây là một vấn đề tối ưu trong khai phá dữ liệu Điều này gợi mở rất cao cho hệ thống khai phá dữ liệu chỉ sinh ra các mẫu hắp dẫn Điều này chắc hẳn có hiệu quả hơn cho cả NSD và các hệ thống khai phá dữ liệu Bời vậy; việc tối ưu hóa còn là một vấn đề thách đồ trong khai phá dữ liệu

“Các độ đo về tính hắp dẫn của mẫu là cằn thiết đối với việc khám phá các mẫu có hiệu quả theo giá trị mà NSD đưa ra Ví dụ như các độ đo có thể

được sử dụng sau các bước khai phá dữ liệu để xếp loại các mẫu đã phát hiện theo mức quan tâm của ho Điều quan trong hon, các độ đo có thể được sit dụng đễ hướng dẫn và rằng buộc tiến trình khai phá cải tiến bằng cách trích lọc tập con của không gian mẫu mà không thỏa mãn các ràng buộc

Các phương pháp đánh giá/độ đo ước lượng mức hắp dẫn của mẫu và sử dụng chúng đễ tăng hiệu quả khai phá dữ liệu cần được cụ thể với từng loại mẫu được khai thác,

3.6.2 Khai phá các mẫu thường xuyên

Các mẫu thường xuyên là các mẫu xuất hiện thường xuyên trong dir liệu, Có nhiều loại mẫu thường xuyên bao gồm các tập chỉ mục, các day con

vd ede cẫu trúc con

“Một tập chỉ mục thường xuyên điền hình là một tập các chỉ mục mà

thường xuyên xuất hiện cùng nhau trong một tập dữ liệu giao dịch, chẳng hạn như sữa và bánh mỹ

M6t day con xuất hiện thường xuyên giống như mẫu mà khách hàng hướng tới mua đầu tiên là PC, sao đó là máy quay số, sau đó là thẻ nhớ, đó

là một mẫu dãy thường xuyên

.Mật cấu trúc con có thễ có nhiều dạng cầu trúc khác nhau như đồ thị,

Trang 36

"Chương 2: Tổng quan về khai phá dữ liệu 39

thường xuyên Việc khai phá các mẫu thường xuyên dẫn tới việc phát hiện các luật kết hợp và các tương quan hắp dẫn nằm trong dữ liệu

'Ví dụ về phân tích kết hợp: giả sử chúng ta muốn xác định xem loại

hàng nào được khách hàng thường xuyên mua củng nhau trong cùng số lần giao dich Vi dy nhu trong CSDL giao dich mua ban đồ điện tử

Buys(X, “computer’) > buys(X, “software") (độ hỗ trợ = 1%, độ tin cậy = 60%]

'Ở đây X là biến biểu thị một khách hang Độ tin cậy hay độ chắc chắn

50% có nghĩa là nếu một khách hàng mua 1 computer thỉ có 50% khả năng,

anh ta sẽ mua software Còn 1% độ hỗ trợ có nghĩa là 1% trong tổng số các giao dịch theo phân tích thấy rằng chúng được mua cùng nhau Luật kết

hợp này bao gồm một thuộc tính đơn hoặc một xác nhận ( , Buys) xuất

hiện Các luật kết hợp cổ chứa đựng một xác nhận đơn là được nói tới các

luật kết hợp đơn chiều Bỏ qua ký hiệu xác nhận, quy tắc trên viết lại đơn

giản như sau:

eompuler -> software [%.80%]

Giả sử cho trước một CSDL quan hệ về hàng điện tử liên quan đến việc mua sắm Một hệ thống khai phá dữ liệu có thể tìm được luật kết hợp như:

Age(X “20 29"income(X, "20K 29K") > buys(X, "CD player") {6 h8 tro = 2%, 60 tin cay = 60%)

Luật nàychỉ rằng các khách mua đồ điện tử theo khảo sát có 2% người

ở độ tuổi 20 tới 29 với thu nhập 20 nghìn đồng tới 29 nghìn đồng đã mua máy nghe nhạc CD trong số hàng điện tử được mua Có khả năng 60%

khách hàng ở độ tuổi đó và thu nhập mức đó mua máy nghe nhạc CD Chú ý:

ting đây là một kết hợp giữa nhiễu hơn một thuộc tính hoặc một xác nhận

( , 8ge, income, buys)

Trang 37

40 Kh ph teu Khai phá dữ liệu 2.7 TICH HOP MOT HE THONG KHAI PHA Di LIEU V1 MOT HỆ THỐNG ESDL HOẶC KHO DỮ LIỆU

Trong phần trên, chứng ta đã biết tổng quan về các thành phần kiến trúc chính đối với một hệ thống khai phá dữ liệu điền hình (hình 2.2) Một kiến trúc hệ thống tốt sẽ tạo điều kiện thuận lợi cho hệ khai phá dữ liệu sử dụng tốt nhất môi trường phần mềm, hoàn thảnh các nhiệm vụ khai phá dữ liệu theo các cách hiệu quả và đúng hạn, tương tác và trao đổi thông tin với các hệ thống thông tin khác, là những yêu cầu da dạng, thích nghỉ với người dùng, và tiến hóa theo thời gian

Một câu hỏi điển hình trong thiết kế hệ khai phá đữ liệu là việc tích hợp hoặc ghép đôi hệ khai phá dữ liệu với hệ CSDL vi/hoặe kho dữ liệu như thế

nào Nếu bệ khai phá dữ liệu làm việc như một hệ thống độc lập hoặc được

nhúng vào trong một ứng dụng thì không có hệ CSDI, hoặc hệ kho dữ liệu

nào liên lạ với nó, Sơ đề đơn giản được gọi là không ghép đôi, ở đây, tiêu

điểm chính của việc thiết kế hệ khai phá dữ liệu chỉ còn là việc phát triển các thuật toán hiệu quả để khai phá các tập dữ liệu Tuy nhiên, khi một hệ thống khai phá dữ liệu làm việc trong một môi trường đòi hỏi có liên lạc với các hệ thống thông tin khác, chẳng hạn hur hệ CSDL hoặc hệ kho dữ liệu thì các sơ đồ tích hợp sẽ bao gồm không ghép nối, ghép nỗi lỏng, ghép nói tương đối chặt, ghép nổi chặt

Chúng ta làm rõ một số thuật ngữ trong các sơ đồ tích hợp:

~ Không ghép nổi: không ghép nỗi có nghĩa là hệ khai phá dữ liệu sẽ

không sử dụng một chức năng nào của hệ thống CSDL, hoặc hệ kho dữ liệu

'Nó có thé tim va nap dữ liệu từ các nguồn riêng (chẳng hạn như là các hệ thống tệp), xử lý dữ liệu bằng một số thuật toán khai phá dữ liệu, sau đó lưu trừ các kết quả khai phá trong một tệp khác

Giống như một hệ thống, dù đơn giản, nó cũng có một số hạn chế

“Trước hết một hệ thống khai phá dữ liệu cung cấp một sự đồng bộ lớn về tính mm dẻo và hiệu quả trong việc cắt giữ, tổ chức, truy cập và xử lý dữ phải đành một lượng thời gian đáng liệu Không sử đụng các hệ CSDI hoặc kho dữ liệu, một hệ khai phá dữ liệu

Trang 38

Chương 2: Tổng quan về khai phá dữ liệu 41 hệ CSDL hay kho dữ liệu lại có cài đặt nhiễu thuật toán kiểm thi, so sánh và các cấu trúc dữ liệu Hơn nữa, khi sử dụng các hệ này sẽ tăng tính thực

thi các nhiệm vụ cài đặt hiệu quả Và hầu hết các dữ liệu có mặt hoặc được lưu trong các hệ thông đó Thiếu sự ghép nối với các hệ thống như thể, một hệ thống khai phá dữ liệu cần phải sử dụng các công cụ khác để trích lọc dữ liệu, gây nhiều khó khăn đến việc tích hợp giống như một hệ thông thành một môi trường xử lý thông tin Do vậy, không ghép đổi thể hiện một thiết kế tôi

~ Ghép nỗi lỏng: ghép nỗi lòng có nghĩa là một hệ thống khai phá dữ liệu sẽ sử dụng một vài phương tiện của hệ thống CSDL hay kho dữ liệu, tim nạp dữ liệu từ kho chứa dữ liệu được quản lý bảng những hệ này, thực hiện khai phá dữ liệu, rồi sau đó lưu giữ các kết quả khai phá hoặc trong l tệp

hoặc trong một nơi được thiết kế ở trong một CSDL hay một kho dữ liệu

Ghép nối lỏng là tốt hơn không ghép nỗi bởi vì nó có thể tìm nạp một

phần dữ liệu cất trong CSDL hoặc kho dữ liệu bằng việc sử dụng xử lý truy

vấn, chỉ số hỏa và các phương tiện của hệ thống khác Nó bị ảnh hưởng bởi các hệ thống khác như thể để có một số đặc tính như linh hoạt hiệu quả và

nhiều đặc tính khác, Tuy nhiên, nhiễu bệ thống khai phá ghép nối lỏng là dựa trên bộ nhớ chính Vì việc khai phá không khai phá cấu trúc dữ liệu và các

phương pháp tối ưu truy vấn được cung cắp bởi các hệ CSDL và kho dữ liệu

Đó là khó cho cặp lỏng để đạt được thực hiện tốt với một tập dữ liệu lớn

- Gháp nỗi tương đổi chặt: ghép nỗi tương đối chặt nghĩa là bên cạnh

mối liên kết giữa hệ khai phá dữ liệu với hệ CSDL hoặc kho dữ liệu còn có

các thực thì hiệu quả một số nhiệm vụ nguyên thủy khai phá dữ liệu cần thiết (xác định nhờ việc phân tích các chức năng khai phá dữ liệu thường xuyên dùng) có thể được cung cắp trong hệ thống CSDL hoặc kho dữ liệu

Các nhiệm vụ này có thể bao gồm việc sắp xếp, chỉ số hóa, tập hợp, phân

tích lịch sử, kết nối theo nhiều cách, tính toán trước một số phương pháp

thống kế cần, như là tính tổng, đếm, lầy max, min, lệch chuẩn, vì các kết

quả khai phá trung gian hoặc là được tính trước hoặc là được tính trên máy

Trang 39

42 Khai phá dữ liệu

So hat phat if

~ Ghép nối chặt: ghép nỗi chặt có nghĩa là một hệ khai phá dữ liệu là được tích hợp nhuần nhuyễn với một hệ CSDL hoặc kho dữ liệu Hệ con khai phá dữ liệu được xem như một thành phần chức năng của 1 hệ thống thông tin Các truy vấn khai phá dữ liệu và các chức năng là được tối ưu hóa

trên cơ sở phân tích truỳ vấn khai phá, các cấu trúc dữ liệu, chỉ số hóa các

sơ đồ, các phương pháp xử lý truy vấn của một hệ CSDL hoặc kho dữ liệu

với sự tiên tiến của công nghệ, các hệ khai phá dữ liệu, CSDL vA kho dit

liệu sẽ tiến hóa và tích hợp với nhau để thành một hệ thông tin với đa chức năng Diéu này sẽ cung cắp một môi trường xử lý thông tin hợp nhất

Cách tiếp cận này có tính hắp dẫn cao vì nó giúp thuận tiện việc thực

biện hiệu quả các chức năng khai phá dữ liệu, các thực hiện mang tính hệ thống cao, và một môi trường xử lý thông tin tích hợp,

+

"Tóm lại, một hệ thống khai phá dữ liệu cằn phải ghép nối với một hệ thống CSDL hay hệ thống kho di liệu Ghép nối lòng dù là nó chưa hiệu đauà, cũng còn tốt hơn không ghép nổi vì nó sử dụng cả 2 phương tiện của cdữ liệu và hệ thống của một hệ thống CSDLL hay hệ thống kho dữ liệu Ghép ối chặt à rắt thích hợp, nhưng việc thực thí của nó là không tằm thường và cần nghiên cứu kỹ hơn Ghép nối tương đối chặt là một hứa hẹn giữa việc ghép nối lòng và chặt Điều quan trọng là nhận dạng các nhiệm vụ khai phá dữ liệu đã sử dụng thông thường và cuy cấp các thực hiện hiệu quả các nhiệm vụ như thế trong các hệ thống CSDL và kho dữ liệu

2.8 CAC VẤN ĐỀ COT LOI VA CAG KY THUAT TRONG KHAI PHÁ DU LIỆU

2.8.1 Các vấn đề cốt lõi trong khai phá dữ liệu

Các vin đề cốt lõi trong khai phá dữ liệu liên quan đến phương pháp

luận khai phá đữ liệu, tương tác NSD, sy thực thỉ và các kiểu dữ liệu đa

dạng Chúng bao gồm:

15 Các sắn đề về phương pháp luận khai phá dữ liệu và tương tác NSD “Các vẫn đề này liên quan đến các loại tr thức đã phát hiện, khả năng khai phá đã liệu trong các nhân hỗn hợp, việc sử dụng các trí thức miễn,

Trang 40

21 m về khai phá dữ “

Phát hiện các loại trì thức khác nhau trong CSDL: do người dùng khác

nhau có thể quan tâm đến các loại trì thức khác nhau nên việc khai phá dữ

liệu bao rộng các nhiệm vụ phân tích dữ liệu va phát hiện trí thức, bao gồm việc đặc trưng hóa dữ liệu, khả năng bóc tách, phân tích kết hợp và tương quan, phân loại, dự đoán, phân cụm, phân tích ngoại lai và phân tích tiên hỏa (bao gồm cả phân tích xu thé và đồng dạng) Các nhiệm vụ này có thể sử dụng cùng một CSDL theo các phương pháp khác nhau và yêu cầu phát triển nhiều kỹ thuật khai phá dữ liệu

.Phát hiện trí thức trong sự tương tác theo nhiễu mức trừu tượng: do cộ

khó khăn trong việc biết chính xác cái gì có thẻ được khai phé trong CSDL, tiến trình khai phá dữ liệu chắc chắn phải xét rong mỗi tương tác Đối với

'C§DL chứa đựng khối lượng lén dữ liệu, các kỹ thuật tựa mẫu trước hết cỏ thể được áp dụng khai thác các dữ liệu có tương tác Việc khai phá theo mối

tương tác cho phép chúng ta tập trung vào việc nghiễn cứu các mẫu, cung

cấp và làm mịn các yêu cầu khai phá dữ liệu dựa trên kết quả thu được, Đặc biệt, các trí thức có thể được khai phá bằng cách lật đi lật lại và xoay quanh không gian dữ liệu và không gian tri thức một các tương tác, giống như cái

mà OLAP có thể làm trên khối dữ liệu Bằng cách đó, NSD có thể tương tác

với hệ thống khai phá dữ liệu để xem dữ liệu và các mẫu đã phát hiện trong các đa tạp và từ các góc nhìn khác nhan

sự hợp thành của các trí thức nên: các trì thức nền hoặc thông tỉn liên quan đến lĩnh vực nghiên cứu có thể được sử dụng, để hướng tiến trình phát hiện cho phép các mẫu được phát hiện được biểu diễn bằng các thuật ngữ

ngắn gọn và ở các mức trừu tượng khác nhau Trỉ thức miền có liên quan tới

CSDL nhur các ràng buộc toàn ven va các quy tắc suy diễn, có 'thể giúp tập trung và tăng tốc tiến trình khai phá dữ liệu hoặc đánh giá tính hấp dẫn của

các mẫu vừa phát hiện

Các ngôn ngữ truy vấn khai phá đữ liệu và khai phá dữ liệu phí thể

hức: các ngôn ngữ truy vấn quan hệ như SQL, cho phép người dùng đưa ra

truy vấn phi thể thức để truy xuất dữ liệu Tương tự, các ngôn ngữ truy vấn khai phá dữ liệu mức cao cần được phát triển để giúp người dùng mô tả các

Ngày đăng: 18/10/2022, 21:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN