LỜI NÓI ĐẦU
Cùng với sự phát triển như vũ bão của công nghệ thông tin, lượng
théng tin của nhân loại được lưu trữ trên các thiết bị điện tử ngày một
tăng Nguồn dữ liệu khổng lồ ấy được tích lày với tốc độ bùng nổ từ rắt
nhiều nh vực: khoa học, kinh doanh, giao dịch, thương mại, chứng khoán, Vậy chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi” ấy không?
Khai phá dữ liệu (Data Mining - DM) ra đời phần nào đó đã giải quyết hữu hiệu cho câu hỏi đặt ra ở trên Và thể nào là khai phá dữ liệu? Khai phá dữ liệu là một quá trình khám phá, chất lọc các trí thức mới và
các trí thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có của một công ty, đơn vị, tổ chức nào đó, từ đó giúp cho chúng ta có được quyết định sáng suốt
Với mục đích cung cấp cho bạn đọc những kiến thức cơ bản về
khai phá dữ liệu, giaì đoạn quan trọng có thể nói là bậc nhất trong chặng
đường đi tim tri thức trong các kho dữ liệu đồ sộ, Nhà xuất bản Thông tin va Truyền thông xuất bản cuốn sich “Khai phá đữ liệu” của TS Lê 'Văn Phùng và Th§ Quách Xuân Trưởng, hiện dang công tác tại Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên biên soạn giới thiệu với bạn đọc
‘Cuén sách gồm 11 chương chia làm ba phần giới thiệu các khái niệm phổ biến nhất liên quan đến quá trình phát hiện trỉ thức từ dữ liệu, các phương pháp khai phá các mẫu dữ liệu “hắp din” ẩn chứa trong các tập dữ
liệu lớn, một số thuật toán điển hình trong khai phá dữ liệu
Phần 1 gồm 2 chương, trình bày các khái niệm cơ bản về khai phá
Trang 4Phần 2 gồm 6 chương trình bày một số phương pháp khai phá các
mẫu dữ liệu hap dẫn ẩn chứa trong những tập dữ liệu lớn: Phương pháp
cây quyết định; Phương pháp phân loại và hồi quy; Phương pháp phân
cụm; Phương pháp kết hợp; Phương pháp giải thuật di truyền và Phương
pháp mạng No-ron 4
Phần 3 gồm 3 chương giới thiệu một số thuật toán điển hình trong
khai phá dữ liệu bằng các phương pháp phân cụm dữ liệu và bằng luật
kết hợp
Khai phá dữ liệu là một hướng tiếp cận mới tuy nhiên đã thu hút được Tắt nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của chúng như: Phân tích dữ liệu và hỗ trợ ra quyết định; Điều trị y học; Tin sinh học; Tài chính và thị trường chứng khoán; Quin lý quan hệ khách hàng, Chăm sóc sức khỏe,
'Hy vọng cuỗn sách sẽ thực sự hữu ích đối với các sinh viên, cử nhân,
kỹ sử, giáo viên giảng dạy, cán bộ nghiên cứu chuyên ngành công nghệ
thông tin trong công việc nghiệp vụ của mình Cuốn sách cũng là tài liệu tham khảo bổ ích cho tit cả các bạn đọc yêu công nghệ thông tin và khao
khát tìm trí thức trong các kho đữ liệu,
Nhà xuất bản Thông tin và Truyền thông xin trân trọng giới thiệu
cùng ban doc va rit mong nhận được nhiều ý kiến đóng góp của quý vị
Mọi đóng góp của quý vị xin gửi về Nhà xuất bản Thông tin và Truyền
thông - số 9, ngõ 90, phố Ngụy Như Kon Tum, quận Thanh Xuân, Hà Nội
hoặc gửi trực tiếp cho tác giả theo dia chi Ivphung@ioit.ac.vn
Trang 5
TỪ VIẾT TAT
1 Tiếng Anh
cLs Concept Learning System “Thuật toán CLS CURE Clustering Using Represen tatives Thuật toán CƯRE DBSCAN Densiy-BasedSpadalClustering Thuậttoán DBSCAN
of Applications with Noise
DENCLUE Density - CLUstring Ering 'Thuật toán DENCLUE DM Data Mining Khai phá đữ liệu EM Expectation Maximization “Thuật toán EM GA Genetic Algorithm Giải thuật di truyền 1D3 Interactive Dichotomizen 3 — ThuậttoánID3 KDD Knowledge Discovery from Data Pháthiện trì thức từ đữliệu OLAP On-Line Analytical Processing Xửlýphẩmtíchưựctuyển PAM Partitioning Around Medoids —‘Thujt ton PAM
Trang 6MỞ ĐẦU
Khai phá dữ liệu (Dœa Minhg - DM) và phát hiện trì thức từ dữ liệu
(Knowledge Discovery from Data - KDD) là một lính vực non trẻ nhưng đầy hứa
hẹn Thông tin và trì thức đá khai phá được có thể sử dụng trong nhiều lĩnh vực từ phân tích thị trường, phát hiện gian lận, giữ chân khách hàng đến điều
khiển sản xuất và nghiên cứu khoa học DM có thể được xem như một kết quả tiến hóa tự nhiên của công nghệ thông tin (CNTT)
“Quá trình phát triển hệ thống dữ liệu đã chứng kiến một nhánh tiến hóa thông qua sự phát triển các chức năng sau [28) (hình 1):
'Từ những năm 1990, với sự phát triển mạnh mẽ của một loạt các công
nghệ (vi xử lý, lưu trữ, truyền thông, thông tỉn), khối lượng dữ liệu tích lũy
được đã tăng nhanh và din đến bùng nổ dữ liệu trong nhiều lĩnh vực đời sóng,
xã hội, khoa học như thiên văn, hóa học, bảo mật, truyền thông, thương mại, cdữ liệu Web, an ninh quốc phòng Riếng Google tiếp nhận hơn 4 tỷ yêu cầu tìm kiếm mỗi ngày, lưu trữ hàng trăm terabytes dt ligu, AT&T tiép nhận 275 triệu cuộc gọi mỗi ngày, Eranee Telecom có 30 terabytes thông tỉa về khách hàng, Walmart có 20 triệu giao dịch mỗi ngày, Burope’s Very Long Baseline Interforometry (VLBI có l6 kính thiên văn, mỗi kính thu được L gigabisgiây dữ liệu, Cơ quan an ninh quốc phòng Hoa Kỳ (SA) có trong tay
hàng triệu văn bản về khủng bố, E1 nipo cũng lưu rit vai trim gigabytes,
Tnternet archive, vnwwrarchive.org cũng lưu trữ khoảng 300 terabytes Người t4
dy tinh dữ liệu trên toàn clu sé ting gắp đôi trong vòng 9 thang
Sự phong phú về dữ liệu đỗ sộ cùng với những nhu cầu về các công cụ
phân tích dữ liệu mạnh đã nói lên rằng tình trạng giàu dữ liệu nhưng đói về
Trang 7'Slc hệ Đắng gun i fo orang a TO ae 1)
‘seh dg St mang pcp ten rg 806 ua |
te como meno ken hte bd a ‘he pong Pp whe oye Bay, hm be vá SỐ,
oon aor tay
Hinh 1 Sự tiến lóa của công nghệ hệ thống cơ sở dỡ liệu
Do tăng trưởng nhanh, khối lượng cực lớn của dữ liệu được sưa tập và lưu Siữ trong những kho chứa dữ liệu khổng 18 cũng như trên Internet đã vượt quá khả năng hip thụ của con người nếu không có những công cụ mạnh Két quả là các dữ liệu đã được sưu tập trong những kho chứa khổng lỗ đó đá trở thành “mỗ chôn” dữ liệu Do đó, những quyết định quan trọng thường không dựa vào những dữ liệu giàu thông tỉn trong kho chứa mà lại dựa vào
quyết định trực giác của người thực hiện vì đơn giản rằng người ra quyết định
Trang 8Mô dầu 9
chỉ chế biến thủ công tri thức thành các cơ sở trí thức Rắt tiếc rằng, thủ tục này đễ xây ra sai lệch hoặc lỗi, cực kỳ mắt thời gian và đất giá Các công cụ khai phá dữ liệu thực hiện phân tích dữ liệu và có thể khám phá các mẫu dữ
liệu quan trọng, đóng góp phần lớn vào chiến lược kinh doanh, xây dựng các
cơ sờ tỉ thức, các nghiên cứu khoa học và y t Khoảng trồng cách biệt giữa dit
liệu và thông tin đã thành nhu cầu thúc đẩy một bước phát triển có hệ thông các công cụ khai phá dữ liệu để biến “mồ chôn” dữ liệu thành “mỏ vàng”
trì hức,
Trang 9
Phan 1
CAC KHAI NIEM CO BAN
VE KHAI PHA DU LIEU
Trang 10Chương1
QUA TRÌNH PHÁT HIỆN TRI THỨC TỪ DU LIEU
1-1 TRI THUG VA PHAT HIEN TRI THUG
1.11, Trì thức
“Theo định nghĩa thông thường, rỉ (hức (knowledge) là “hiểu” và
“biết”, những hiểu biết có hệ thống về sự vật, hiện tượng tự nhiên hoặc xã
hội, ví dụ như trí thức khoa học, tr thức nghề nghiệp Trong kinh tế tri thức
và trong ngành khoa học thông tin và thư viện ngây nay định nghĩa: Trí hike à thông tìn có ý ng]ĩ@ (neaningfil) và hữu ích (useful)
Theo Bách khoa toàn thư Việt Nam [58], tri thite là “kết quả của các
quá trình nhận thức của con người về đối tượng được nhận thức, làm tái
hiện trong tư tưởng con người những thuộc tính, những mối quan hệ, những up luật vận động, phát triển của đối tượng và được diễn đạt bằng ngôn ngữ tự nhiên hay hệ thẳng ký hiệu khác Trì thức thông thường được hình thành do hoạt động hàng ngảy của mỗi cá nhân và mang tính chất cảm tính trực tiếp, bể ngoài và rời rạc Trí thức khoa học phản ánh trình độ cao của con người đi sâu nhận thức đối tượng nhằm vạch ra bản chất của đối tượng
Trĩ thức khoa học được chia thành trí thức kinh nghiệm và trì thức lý luận “Trỉ thức kinh nghiệm do quan sát, mô tả, thực nghiệm mang lại Trỉ thức lý
luận là kết quả của sự khái quát hóa những tri thức kinh nghiệm (những tài liệu kinh nghiệm, kết quả thực nghiệm) để xây dựng các hệ thống lý luận phan anh những mỗi liên hệ tắt yếu, cơ bản của sự vật, hiện tượng hay lớp
sự vật, hiện tượng”
Môn học về trì thức được gọi là nhận thức luận Trong nhận thức luận, một định nghĩa phổ biến của trì thức là nó bao gồm ba tiêu chí khả tín,
Trang 1114 Khai phá dữ liệu Nói đơn giản, tri thức là các thông tin tích hợp, bao gồm các sự kiện và
các mỗi quan hệ giữa chúng Các mối quan hệ này có thẻ được hiểu, được phát hiện ra, hoặc có thể được học, Nói cách khác, trì thức có thể coi là dữ liệu có độ trừu tượng và tính tổ chức cao
Trong quá trình khai phá dữ liệu, nếu những quan hệ giữa các dữ liệu được chỉ ra một cách rõ rằng thì quan hệ đó sẽ thể hiện trì thức Chẳng hạn, 'bản thân từng con số riêng lẻ như 1, 3, 2, 5, 7, 10, là các dữ liệu Nhưng
khi dat ching lại với nhau theo trật tự như 1, 1, 2, 3, 5, 8, 13, 21, 34, thì
người ta phát hiện giữa chúng có mỗi quan hệ Mỗi quan hệ đó được biểu
diễn bằng công thức U„ = Uạ + Ux, Công thức này chính là trì thức,
So với dữ liệu thì tri thức có số lượng ít hơn rất nhiều vì trí thức là “"sự kết tỉnh” hay "chất lọc” hay "cô đọng” từ vô số các dữ liệu Xuyên suốt
cuốn sách nảy, khái niệm “mẫu” được dùng là một biểu hiện của trí thức được phát hiện từ những kho dữ liệu với khối lượng lớn Nó diễn tả mồi quan hệ tường minh giữa các dữ liệu và được biểu diễn dưới dạng một mệnh
để logic (công thức, luật, quy tic, mệnh đề mang tính chân lý hay phổ biến, ) Chính vì vậy, chúng ta rất cần nghiên cứu, tìm tòi, phát hiện trì
thức từ bàng đống số liệu thống kê, nu không chúng ta sẽ ngập chìm trong
biển dữ liệu như nhà bác học Karan Sing đã cảnh báo
Người ta phân ra nhiều dạng tri thức Ngồi tri thức mơ tả cho biết một đổi tượng, sự kiện, vẫn đề, khái niệm được thấy, cảm nhận, cấu tạo
như thể nào (con người có 2 tay, 2 mắt, trí thức sự kiện khẳng định về
một sự kiện, khái niệm nào đó trong một phạm vỉ nhất định (mặt trời mọc
ở đẳng đông, tam giác có 3 góc 60), trong CSDL người ta quan tâm nhiều
đến trì thức thi tục nhằm diễn tả phương pháp, các bước thực hiện, cách giải quyết một vấn đề (thuật toán, thuật giải), đặc biệt là tr thức Heuristic
(một đạng trì thức cảm tính), Các trì thức thuộc loại Heuristic này thường
©ó dạng ước lượng, phỏng đoán và thường được hình thành thông qua kinh
nghiệm, thử nghiệm
1.1.2 Phát hiện trì thức
“hát hiện tr thức (Knowledge Discover) là một lĩnh vực nghiên cứu
Trang 12a
trình àn trí thức từ dữ liệu 45
hiện trì thức vốn là hoạt động của trí tuệ con người; từ khi xuất hiện máy
tính điện tử, các hoạt động đó từng bước hoặc từng phần được mõ phỏng để có thể thực hiện trên máy tính Trong những năm gắn đây, với việc tin học
hóa rộng rãi và nhanh chóng, nhiều CSDL kim đã được tích lũy trong nhiễu
lĩnh vực kinh tế, xã hội và nhu cầu khai thác các nguồn dữ liệu phong phú
đó đễ phát hiện được các tri thức hữu ích giúp cho việc làm quyết định ngày càng trở nên cấp thiết Phát hiện trí thức trở thành một lĩnh vực nghiên cứu được sự quan tâm rộng rãi và sử dụng nhiều phương pháp thuộc nhiều ngành khác nhau như phân tích thống kê, nhận dạng, trí tuệ nhân tạo, mạng Bayes, mang no-ron, tinh toán tiến hóa, [58]
Phát hiện trí thức từ dữ liệu (Knowiedge Discovery from Data - KDD)
Ja qué trình nhận biết cái logic, cái mới lạ, những trỉ thức tiểm tàng hữu ích
tir CSDL, và cuối cùng là việc hiểu được các mẫu, các mô hình trong dữ
liệu Theo Fayyad, Platetsky-Shapiro, Smyth (1996): *KDD là việc ích
chọn (extraerion) tự động trì thức còn ẩn dấu, chưa quan sát được từ một
khối dữ liệu lớn”
11.2 QUÁ TRÌNH PHÁT HIỆN TRI THỨC
Phát hiện trì thức là một quá trình bao gồm một dãy các bước lặp
(giai đoạn) sau [28]: 1, Lâm sạch dữ liệu 2 Tích hợp dữ liệu 3 Chọn lựa dữ liệu 4 Chuyên đổi dữ liệu 5 Khai phá dữ liệu 6 Đánh giá các mẫu 7 Trình diễn trì thức
Khởi đầu của quá trình phát hiện trì thức là tìm hiểu lĩnh vực ứng dụng
và hình thành bài toán, kết quả của bước khởi đầu này là những quyết định
cần trích lọc những tri thức hấp dẫn nào, đồng thời dự kiến các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và 'bản chất của dữ liệu
Trang 13
16
Khai ht ph rigs dữ,
Các bước 1 - 4 được trình bày ở trên là các dạng khác nhau của tiỀn xử lý, ở đây dữ liệu được chuẩn bj dé khai phá gm các bước: thu thập dữ liệu,
trích lọc dữ liệu, làm sạch và tiền xử lý dữ liệu, chuyển đối dữ liệu
Dữ liệu được thu thập ở dạng thô từ các nguồn dữ liệu có thể là từ các kho dỡ liệu hay nguồn thông tin Irtemet Một số tác giả gọi bước nhỏ này là bước “gom đờ liệu (gathering)”
Dữ liệu cần phải làm sạch để khắc phục đối với trường dữ liệu rỗng, dư
thừa hoặc dữ liệu không hợp lệ Giai đoạn "làm sạch và riễn xử lý di liệu (cleansing preprocessing preparation)” 1d giai dogn hay bi sao ling, nhưng
thực tế nó là một bước rất quan trọng trong quá trình DM Một số lỗi thường mắc phải trong khỉ gom dữ liệu là dữ liệu không đẩy đủ hoặc không thống
nhất, thiếu chặt chẽ Vì vậy, dữ iệu thường chứa các giá tị vô nghĩa và không có khả năng két nối lại với nhau Ví dụ học sinh cắp tiểu học đi bộ đến trường cách nhà 15km Giai đoạn này nhằm xử lý các đữ liệu như trên, “Những dữ liệu dạng này thường được xem là thông tỉn dư thừa, không có
sửa trí Bởi vậy đây là một quá trình rắt quan trọng Nếu dữ liệu không được làm sạchMtiền xử lý/chuẩn bị trước thì sẽ ây nên những kết quả sai lệch
"nghiêm trọng về sau,
“Tích hợp dữ liệu là quan trọng vì dữ liệu được sưu tập từ nhiều nguồn
khác nhau Việc chọn dữ liệu là cằn thiết cho mục tiêu dé ra đồng thời có
thể tỉnh giảm được dữ liệu Kết quả của việc "ích lọc để ligu (selection)"
là các dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó, Việc biểu diễn dữ liệu, chuyển đổi kiểu sao cho phù hợp với giải thuật
khai phá dữ liệu sẽ được áp dựng ở bước sau là những công việc cần thiết Các bước này thường chiếm nhiễu thời gian nhất trong quá trình phát
hiện trị thức
Các công việc tiền xử ý dữ liệu bao gầm:
~ Xử lý dữ liệu bị mắtthiểu: Các dữ li u bị thiếu sẽ được thay thé bởi
các giá trị thích hợp
¬y khử bỏ trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ, Kỹ thuật
Trang 14
~ Giảm nhiễu: đữ liệu nhiễu và các đổi tượng tách rời khỏi phân bố
chung sẽ bị loại bỏ khỏi tập dữ liệu
- Chuẩn hóa: thông thường là chuẩn hóa miễn giá trị của dữ liệu cho
phủ hợp
~ Rời rạc hóa: chính là việc biến đôi các dữ liệu dang số về dữ liệu với
tej roi rac
~ Trích rút và xây dựng đặc trưng mới từ các thuộc tỉnh đã có ~ Giảm chiều không gian thuộc tính: là loại bỏ bớt các thuộc tính chứa ft thong tin,
các
Trong giai đoạn-“chuyển đổi dữ liệu (transformation)”, dữ liệu có thể
được tổ chức và sử dụng lại Mục đích của việc chuyển đổi đữ liệu là làm
cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu
Bước 5, khai phá dữ liệu, là bước quan trọng nhất trong tiến trình phát hiện tri thức Kết quả của bước này là trích chọn được các mẫu và/hoặc các
mô hình Ẩn dưới một khối lượng lớn dữ liệu Một *zuổ hinh” c6 thé là một biểu điễn cấu trúc tổng thể một thành phẫn của hệ thống hay cả hệ thống
trong CSDL, hoặc là một miều tả cách dữ liệu được nảy sinh Còn một
“md ta một cầu trúc dữ liệu cục bộ có liên quan đến một số biến (chỉ tiêu) và một số trường hợp trong CSDL
Bước khai phá dữ liệu có thể tương tác với NSD hoặc một cơ sé tri
thức Các mẫu quan tâm được trình điễn tới NSD va có thể được lưu trữ như những trí thức mới trong cơ sở tri thức đó Chúng ta thống nhất với nhau
một quan điểm về chức năng khai phá dữ liệu: khai phá dữ liệu là một quá
trình phát hiện trí thức hắp dẫn từ khối lượng lớn dữ liệu được chứa trong
CSDL, kho dữ liệu hoặc những kho chứa thông tin khác Trong bước này,
Trang 1518 Khai phá dữ khái niệm), trí tuệ nhân tạo, nhận dạng, phân tích thống kê, sử dụng nhiều
phương pháp khác nhau như phương pháp trực quan là hiển thị hoặc phương pháp mô hình hóa Nhìn chung, việc thực hiện bước này rất khó và cần
nhiều công sức
Phat hiện và trích chon mdu dit ligu (Pattern Extraction and Discovery) la mot bude tu duy trong quá trình phát hiện tri thức Ở trong
giai đoạn nảy nhiều thuật toán khác nhau đã được sử dụng để chọn các mẫu từ dữ liệu Thuật toán thường dùng để trích chọn mẫu là thuật toán phân loại
cử liệu, kết hợp dữ liệu, thuật toán mô hình hóa dữ liệu tuần tự
Bước 6, đánh giá các mẫu, thực hiện việc kiểm định dựa vào mục tiêu
ban đầu của ứng dụng Tắt nhiên chỉ có N$D hoặc chuyên gia về lĩnh vực
đó mới có khả năng đánh giá Bước này thực hiện với mục đích nhằm hiểu
ð bản chất các trí thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự
đoán Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù
hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng Các kết quả thụ
được cần đạt tới độ dễ hiểu cao, có thể đánh giá được theo những tiêu chuẩn
nào đó
Đánh giá kết quả (evaluation oƒ resul) là giai đoạn cần thiết trong quá
trình phát hiện tri thức Ở giai đoạn này các mẫu dữ liệu được chiết xuắt ra
bởi phần mềm khai phá dữ liệu Không phải mẫu dữ liệu nào cũng hữu ích,
đôi khi nó còn bị sai lệch Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những trỉ thức cẰn thiết
Bước 7, trình diễn trì thức, bao gồm việc hiển thị kết quả hoặc dich kết ua dé hiểu và trình diễn Trong bước này, các tỉ thức vừa mới khám phá sẽ
cđược cùng cổ, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung
đột tiềm năng trong các tì thức đó Các mô hình rút ra được đưa vào những hệ
thống thông ỉn thực tế dưới dạng các mô-đun hỗ rợ việc đưa ra quyết định Quá trình phát hiện trì thức có thể được diễn tả chỉ tiết như hình 1.1:
Các bước (giai đoạn) của quá trình phát hiện tr thức có mỗi quan hệ
Trang 16Chương 1: Quá trình phát hiện trí thức từ dữ liệu 19 dung trong bước trước có thể ảnh hưởng đến hiệu quả của các giải thuật
được sử dụng trong những bước tiếp theo, Các bước của quá trình khám phá
trị thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được
Trang 17Chuong 2
TONG QUAN VỀ KHAI PHÁ DỮ LIỆU
2.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU
2.11 Dữ liệu
Trong máy tính, thuật ngữ dữ liệu được xem như là các đặc tính được
biết đến mà có thể ghi lại và lưu trữ trên các thiết bị ghỉ nhớ của máy tính Dif ligu là những mô tả về sự vật, con người và sự kiện trong thể giới thực
Dữ liệu bao gồm số, ký tự, văn bản, hình ảnh, để họa, âm thanh, đoạn
phim có một giá trị nào đó đối với NSD và chúng được lưu trữ, xử lý
trong máy tính [4]
Vĩ đụ:
- Dữ liệu về khách: tên, địa c thoại, thể tín dụng
~ Dữ liệu về xe ô tô của khách: hãng xe, đời xe, năm sản xuất ~ Dữ liệu về nhật ký sửa chữa: ngày phục vụ, tên thợ sửa chữa, số tiền
thanh toán
“Trong hoạt động kinh tế xã hội của con người, người ta thường chia ra hai loại dữ liệu là loại dữ liệu phản ánh cầu trúc nội bộ của cơ quan (nhân oq, nha xưởng, thiết bị, dữ liệu ít biến động) và loại dữ liệu phản ánh hoạt
động của tổ chức (sản xuất, mua bán, giao địch, ) Trong doanh nghiỆp, không kể con người và thiết bị, dữ liệu củng với xử lý là ai thành phần cơ
bản của hệ thông: dữ liệu thường dùng đẻ ghỉ nhận thực trạng
2.1.2 Khai phá dữ liện
“Theo bách khoa toàn thư, khai phd di ligu (DM) là khâu chủ yếu trong,
quá trình phát hiện trỉ thức từ dữ liệu đễ trợ giúp cho việc làm quyết định trong quản lý DM sử dụng nhiều phương pháp của phân tích thống kê, của
Trang 18ch
1 an vd khai phá dữ, 2
lý thuyết nhận dạng, của các hệ học, các mạng nơ-ron nhân tạo nhằm phát
biện các mẫu hình tri thức trực tiếp từ các kho dữ liệu DM và phát hiện tri
thức là những hướng nghiên cứu mới trong tổ chức và khai thác các hệ
thống thông tin và trợ giúp quyết định
Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm
1989, Có rất nhiều định nghĩa khác nhau về DM đã được đưa ra Theo nghĩa
đơn giản nhất, DM là việc trích lọc tri thức từ một lượng lớn đữ liệu Nó còn
có một số tên gọi khác như “trích chọn trị thức”, "phân tích dữ liệu /mẫu”, ““khảo cổ dữ liệu”, "nạo vét dữ liệu”,
Giáo sư Tom Mitchell đã đưa ra định nghĩa về DM như sat
việc sử dụng dữ liệu lịch sử dé khám phá những quy tắc và cải thiệt
quyết định trong tương lai" Với một cách tiếp cận thực tế hơn, tiến sĩ
Fayyad đã phát biểu: “DM rhường được xem là việc khám phá trì thức trong
các CSDI, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng là hữu ích, dưới dạng các quy luật ràng buộc, quy tẮc'
trong CSDL” Các nhà thông kê thì xem “DM như là một quả trình phân
tích được thiết kế thăm đồ một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đỏ sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các
mẫu đã phát hiện được cho tập con mới của dữ lị
Nói chung, DM là cốt lõi của quá trình phát hiện tri thức Nó gồm có 'các giải thuật DM chuyên dùng, một số quy định về hiệu quả tính toán chap nhận được DM nhằm tìm ra những mẫu mới, mẫu có tính chất không tằm thường, những thông tin tiểm ẩn mang tính dự đoán chưa được biết đến và
có khả năng mang lại ích lợi Nói gọn hơn, DM là việc tìm kiếm các kiến
thức/các mẫu hấp dẫn trong kho dữ liệu
DM là hoạt động trọng tâm của quá trình phát hiện tr thúc
2.2 CAC LINH VUC LIEN QUAN ĐẾN PHÁT HEN TRI THỨC VÀ KHAI PHA DO LIEU
Phat hiện trí thức và khai phá dữ liệu được ứng dụng trong nhiều ngành
và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giảo dục,
thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở trỉ thức cho hệ chuyên gia
Trang 1922 Khai phá dữ liệu
lĩnh vực thống kê, dựa nhiễu vào nền tăng lý thuyết của nó, cũng như tập
trung vào kiểm định những giả thiết, sử dụng các phương pháp thống kê đề
phát hiện ra các mẫu, các luật bên rong dữ liệu KDD & DM cũng liên quan
chặt chẽ đến máy học, dựa nhiều vào hewistics (phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm, tìm giải pháp qua thử nghiệm và cải tiển) và tập trung vào cải tiến hiệu quả của giải thuật học Kho dữ liệu và các công cụ phân tích trực tuyến cũng liên quan chặt chẽ đến KDD & DM = os - Co Hành 2.1 Các lĩnh vực liên quan đắn DM & KDD Phương pháp hiển tị 0 bà
2.3 CÁC HỆ THỐNG KHAI PHÁ DỮ LIỆU VÀ KIẾN TRÚC TỔNG QUÁT CỦA CHUNG
2.3.1 Phan loại các hệ thống khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành, chịu sự tác động của nhiễu ngành kiến thức như đã nói ở trên Trước hết, do phụ thuộc vào cách tiếp
cận khai phá dữ liệu đã sử dụng dẫn tới việc phải ding các kỹ thuật của
nhiều ngành khác chẳng hạn như là mạng no-ron, tập mở, lý thuyết tập thô, việc trình diễn trí thức, chương trình quy nạp logic, Tiép đó, do phụ thuộc
vào loại dữ liệu được khai phá hoặc ứng dụng khai phá dữ liệu triển khai
xiên hệ thống khai phá dữ liệu phải tích hợp các kỹ thuật từ các phân tích dữ
liệu không gian, trích rút thông tn, nhận biết mẫu, phân tích ảnh, xử lý tín hiệu, đồ họa vĩ tính, công nghệ Web, kinh Š, thương mại, tin sinh học hoặc
Trang 20Chương 2: Tổng quan vb khai phá dữ liệu 2
Nhờ việc đóng góp của nhiều ngành kiến thức khác nhau cho khai phá
dữ liệu nên việc nghiên cứu khai phá dữ liệu đã được kỳ vọng sinh thành
một lượng phong phú các hệ thống khai phá dữ liệu Do vậy cần phải phân định rõ ràng các hệ thống khai phá dữ liệu có khả năng giúp NSD phân biệt
rõ rằng và xác định việc kết nối tốt nhất với nhu cầu của họ Các hệ thống
khai phá dữ liệu có thể phân loại theo các tiêu chuẩn khác nhau như sau;
1 Theo loại của CSDL đã khai phá
+ Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống
khai phá dữ liệu giao địch, bệ thống khai phá dữ liệu quan hệ - đối tượng,
hệ thống khai phá dữ liệu kho dữ liệu)
+ Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống khai phá dữ liệu chuỗi thời gian, hệ thông khai phá dữ liệu văn bản, hệ thống khai phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai phá dữ liệu Web)
+ Các loại CSDL, riêng cho mỗi ứng dụng, 2 Theo loạÌ của trí thức đã phát hiện
+ Dựa trên các chức hăng khai phá dữ liệu như đặc trưng hóa, tách lọc,
kết hợp và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân tích tiến hỏa Một hệ thống khai phá dữ liệu toàn diện
thường cung cấp đa chức năng hoặc tích hợp nhiều chức năng
+ Dựa trên hạt nhân hoặc tính trừu tượng của tí thức được khám phá
bao gồm các trí thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên
thủy (ờ mức dữ liệu thô), hoặc trì thức ở mức da ting (xem xét một số mức trừu tượng) Một hệ thông khai phá dữ liệu tiên tiền sẽ rất tiện cho việc phát
hiện tri thức ở đa mức trừu tượng Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biển) ngược với các bắt quy tắc (loại trừ, ngoại lai)
Nói chung, các quy tắc khai phá dữ liệu mô tả ìm, sự kết hợp,
phân tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các
phần tử ngoại lai các phương pháp này cũng có thể giúp cho việc khám phá các phần tử ngoại lai
Trang 21
ma pe
Theo loại kỹ thuật đã sử dụng
+ Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như các hệ tự trị, các hệ thống thăm dò tương tác
+ Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ:
liệu đã sử dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy
học, thống kê, hiển thị, nhận dạng mẫu, mạng nơ-ron,
Một hệ thông khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên hợp nhiều cách tiếp cận riệng lẻ
4 Theo logi céc ứng dụng đã thích ứng
Các hệ thống khai phá dữ liệu có được trang bị tiếng cho ngành tài chính, giao thông liên lạc, thị trường vốn, thư tín điện tử,
Các ứng dụng khác nhau thường đồi hỏi sự tích hợp các phương pháp
đặc tả, Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không thể có đủ các nhiệm vụ khai phá đặc trưng theo miễn
2.3.2 Kiến trúc của một hệ thống khai phá dữ liệu
Kiến trúc của một hệ thống khai phá dữ liệu điển hình có thể có các thành phần như hình 2.2 [28]
- Cơ sở đề liệu, kho dữ liệu hoặc các lưu trữ thông tìn khác (Databases, Data warehouse, ): Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tứn khác Các kỹ thuật âm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dit này
- Máy chủ CSDIL hay máy chủ kho dữ liệu (Database or warehouse
server): May chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai phá của người dùng
Trang 22Chương 2: T( m về khai phá dữ 25 ~ Kỹ nghệ khai phá dữ liệu (Data mining engine): Một hệ thông DM cần phải có một tập các mô-dun chức năng để thực hiện công việc như: đặc trưng hóa, kết hợp và phân tích tường quan, phân lớp, dự đoán, phân cụm, phân tích ngoại lai và phân tích tiến hóa
~ Mô- lun đánh giá mau (Pattern evaluation): Bộ phận này thực hiện do mức quan tâm và tương tác với các mô-đun DM để duyệt tìm các mẫu đáng được quan tâm Nó có thé dùng các ngưỡng về độ quan tâm đẻ lọc mẫu đã khám phá được Cũng có thể mô-đun đánh giá mẫu được tích hợp vào mô-đun khai phá, tùy theo sự cài đặt của phương pháp khai phá được đùng
~ Giao diện đồ họa người dùng (Graphical user imerƒface): Bộ phận
này cho phép người đùng giao tiếp với hệ thống DM bằng việc định rõ một
Trang 2326 Eat phe ar tig hai phá dữ
2.4, CAC LOAI DG LIEU CÓ THỂ KHAI PHÁ ĐƯỢC
Các loại dữ liệu có thé khai phá được bao gồm C$DL quan hệ, kho dữ
liêu, CSDL giao dịch, CSDI quan hệ kiểu đối tượng, CSDL thời Ìan,
CSDL chuỗi, CSDL theo chuỗi thời gian, CSDL không gian và thời gian, CSDL van bin, CSDL da phuong tiện, CSDL hỗn hợp và CSDI, di sin,
các dòng truyền tải dữ liệu, World Wide Web,
Ngoài CSDL quan hệ, các CSDL khác như kho dữ liệu, giao dịch,
được gọi là CSDL nâng cao do cầu trúc phức tạp của chúng
2.4.1 CSDL quan hg
Một hệ CSDLL cũng được gọi là một hệ quan tr} CSDL, bao gồm một bộ
sưu tập dữ liệu có quan hệ lẫn nhau chính là một CSDL và một tập các chương trình phần mềm để quản lý và truy nhập dữ liệu Các chương trình
phần mềm bao gồm các cơ chế để xác định các cầu trúc CSDL, để lưu giữ cdữ liệu, chia sẻ hoặc truy nhập dữ liệu, để dim bio tinh ben vững và an toàn
của các thông tin dù cho hệ thống bị xâm phạm hoặc bị truy nhập trái phép Một CSDL quan hệ là một bộ sưu tập các bảng với tên duy nhất, mỗi
bảng chứa đựng một tập thuộc tính (các cột hoặc các trường) và thường lưu
giữ một tập lớn các bộ (các bản ghỉ hoặc các dòng) Mỗi bộ trong một bảng
quan bệ biểu diễn một đối tượng được xác định bằng một khóa duy nhất và được mô tả bằng một tập các giá trị thuộc tính Một mô bình dữ liệu ngữ
nghĩa, như mô hình dữ liệu thực thể - mỗi quan hệ, mô hình E-R thường được xây dựng cho các CSDI, quan hệ Một mô hình E-R biểu diễn CSDL như một tập các thực thể và các mỗi quan hệ của chúng
Khi khai phá dữ liệu được áp dụng vào CSDI, quan hệ, chúng ta có thể di xa hơn nữa bằng việc nghiên cứu về xu thé hoặc các mẫu dữ liệu Ví dụ,
sác hệ khai phá đữ liệu có thể phân tích dữ liệu khách hing để dự đoán rủi ‘o tin dung của các khách hàng mới dựa rên thu nhập, tuổi, thông tìn tín
dung trude đây của ho Các hệ thống khai phá dữ liệu cũng có thể phát hiện
Séc độ lệch, như các mặt hàng mà doanh thu của nó hy vọng là khác xa so với năm Các CSDL quan hệ là một trong số các kho chứa giàu thông
Trang 24Chương 2: Tổng quan về khai phá đữ liệu a7 2.4.2 Kho dữ liệu
Giả sử rằng Allelectronies là một công ty quốc tế nhiều chỉ nhánh trên thể giới Mỗi chỉ nhánh có một tập dữ liệu riêng Ông Chủ tịch công ty yêu cầu cung cấp phân tích về việc bản bảng của công ty theo từng mặt hàng, theo từng chỉ nhánh theo quý Đây là nhiệm vụ khó khăn Khó khăn hơn khi nhiễu dữ liệu còn chưa được cập nhật vào kho chứa
'Nếu công ty đã có kho dữ liệu, nhiệm vụ này trở nên dễ dàng Một kho dữ liệu là một kho chứa thông tin được sưu tập từ nhiễu nguồn, được cắt giữ
theo một sơ đồ thống nhất, và thông tin thường đặt ở những vị trí đơn lẽ Kho dữ liệu được cấu trúc qua một quá trình làm sạch dữ liệu, tích hợp dữ
liệu, chuyển hóa dữ liệu, tải dữ liệu và làm tươi dữ liệp định kỳ Hình 2.3
mô tả một khung làm việc điển hình để cấu trúc va sử dụng một kho dữ liệu
cho công ty
Hinh 2.3 Khung làm việc dién hinh của kho dữ liệu đành cho công ty 'Để dễ dàng đưa ra quyết định, dữ liệu trong kho được tổ chức xung quanh các đối tượng chỉnh như là khách hàng, bàng hóa, nhà cung cấp và hoạt động Dữ liệu được lưu để cung, cắp thông tin tir một viễn cảnh lịch sử (vi dụ như cách đây 5 - 10 năm) và đã được tóm lược, Ví dụ, để có đầy đủ
chí tiết của từng giao địch bán hàng, kho dữ liệu phải lưu một tóm lược về các phiên giao địch mỗi kiểu mật hàng cho từng cửa hàng hoặc chung cho từng khu vực
Trang 2528 thea he tig Khai phd
tính trong sơ đồ, mdi ô chứa giá trị của một độ đo tụ hợp nào đó, chẳng hạn như khối lượng bán hàng Cấu trúc vật lý thông thường của một kho dữ liệu có thể là một kho dữ liệu quan hệ hoặc là khối dữ liệu đa chiều Một khối dữ liệu cung cấp một khung nhìn đa chiêu về dữ liệu và cho phép tính trước và
xử lý nhanh dữ liệu đã tóm lược
Vancouver, ‘ein Tine: quarters
(e) Biểu diễn dữ liệu tóm lược cho
Sines ay/ crocs Pulte Zr “+ esi, a Pe =| ‡s Ễ mm ” 2 Fe = os
eT eormaer [secur me | Memy
F em oes) vay 9m fam ps) (©) Bidu din eu lém tất nhờ các pháp ốn -8Đl-doim và ol-up từ khối dữ lộu rong bình s
Trang 26Ghương 2: Te mộ 29
khai
phân tích trục tuyến, hoặc OLAP Các phép toán của OLAP sử dụng kiến thức nền khi quan tâm miễn dữ liệu được nghiên cứu để trình diễn dữ liệu theo các mức trừu tượng khác nhau Do vậy, các phép toán cung cấp các quan điểm sử dụng khác nhau Ví dụ các phép toán của OLAP bao gồm chỉ lúa (dril-down) va gdp hoa (roll-up) nhằm cho phếp người dàng xem ddữ liệu ở các mức tôm lược khác nhau, Mặc dù các công cụ của kho dữ liệu đã hỗ trợ phâ+ tích dữ liệu, chúng ta vẫn cần bổ sung các công cụ khai phá dữ liệu để phân tích dữ liệu ở mức sâu hơn vả tự động hóa nhiều hơn
24:3 CSDL giao dịch
‘Noi chung, một CSDL giao dịch gồm các tập mà mỗi bản ghỉ biểu diễn một giao dịch Một giao dịch điễn hình gồm một định danh giao địch duy nhất (giaodichID) và một danh sách các chỉ mục tạo nên giao địch (như là các chỉ mục đã mua sắm trong cửa hang)
Bang 2.1 Một phần CSDLL giao tác cho việc bán hàng đồ điện tứ: 'Giaodieh.1D | Danh sách các chimue,!D 7100 1, 18,18, 116 7200 12.18 mm |
CSDL giao tic có thể có các bảng phụ kết hợp với nó, các bảng phụ chứa thông tin khác liên quan tới việc bán hàng như ngày giao dich, số hiệu
khách, số định danh của người bán và của chỉ nhánh có giao dich, Nhờ CSDL, này, chúng ta có thể trả lời câu hỏi “chỉ cho tôi tất cả các mặt
hàng mà ông Lê đã mua” hoặc có bao nhiêu giao dịch có mặt hàng l3”, “những mặt hàng nào thường được bán cùng nhau?”, “có bao nhiêu giao dịch máy tính và máy in được mua củng nhau?", Một hệ thống truy xuất dữ liệu không thể trả lời tất cả các câu hỏi đại loại như vậy, nhưng các hệ thống khai phá dữ liệu đối với dữ liệu giao dịch có thể làm bằng việc nhận ra các tập mục thường xuyên, tập các mặt hàng thường bán cùng nhau
2.4.4 Cơ sử dữ liệu quan hệ kiểu đối tượng
Các CSDIL quan hệ kiểu đối tượng được cấu trúc đựa trên mô hình dữ liệu quan hệ - đối tượng Mô hình này mở rộng mô hình quan hệ bằng việc
cung cấp một kiểu dữ liệu phong phú để xử lý các đối tượng tổ hợp và
Trang 27
hưởng đối tượng Vi hầu hết các ứng dụng CSDL phức tạp cần xử lý các đối tượng và các cấu trúc phức hợp, các C$DL quan hệ - đối tượng đã trở nên phổ dụng trong công nghiệp và các ứng dụng
Các mô hình quan hệ - đối tượng thừa hưởng các quan niệm trọng yếu
của các CSDL hướng đối tượng Mỗi thực thể được coi như một đổi tượng
Các đối tượng như nhân viên, khách hang, hoặc mặt hàng Dữ liệu và việc mã hóa liên quan tới đối tượng là được bao gồi trong một đơn vị đơn giản
Mỗi đối tượng được kết hợp với:
~ Một tập các biến mô tả đối tượng Chúng tương ứng các thuộc tính
trong các mô hình thực thể - mồi quan hệ và mô hình quan hệ
Một tập các thông điệp mà đối tượng sử dụng để liên lạc với các dối
tượng khác, hoặc với những hệ thống khác,
- Một tập các phương pháp mà mỗi mô hình thực hiện mã hóa để cài
“đặt một thông điệp Sau khi nhận thông điệp, một giá trị được trả lại
Mỗi đối tượng là một thể hiện của một lớp Các lớp đối tượng có thể được tổ chức theo cây phân cấp lớp/lớp con sao cho mỗi lớp diễn tả các
thuộc tính chung cho các đối tượng trong lớp đó Ví dụ, một lớp người làm
©õ chứa các biển như tên, địa chi, ngày sinh, Giả sử rằng lớp người bán hàng
là lớp con của lớp người làm Một đối tượng người bán hàng sẽ thừa kế tắt
eà các biến của lớp người làm cộng thêm các biển riêng của người bán hàng như nhiệm vụ Như thé, một đặc trưng thừa kế của lớp hưởng lợi thông tin
chia sé
Đối với việc khai phá dữ liệu trong các hệ thống quan hệ - đổi tượng,
các kỹ thuật cần phát triển để xử lý các cấu trúc của đối tượng phức hợp, các kiểu dữ liệu phức hợp, phân cắp lớp và các lớp con, thừa kế thuộc tính, các
phương pháp và các thủ tục,
2.48 CSDL thời gian, CSDL chuỗi, CSDL theo chuỗi thời gian
Một CSDL thời gian điển hình chứa các dữ liệu quan hệ bao gồm các thuộc tính có mồi quan hệ về thời gian Các thuộc tính này có thể bao gồm một vài tính chất thời gian, mỗi tính chất có ngữ nghĩa riêng Một CSDL chuỗi chứa một chuỗi các sự kiện có thứ tự, có hoặc không có chú giải về
Trang 28hương 2: Tổng quan về khai phá dữ tig 3t dãy các sự kiện sinh học Một CSDL theo chuỗi thời gian chứa một chuỗi các giá trị hoặc các sự kiện đạt được sau một độ đo lặp lại về thời gian
(ví dụ như bàng giờ, hông ngày, hàng tuần) Các ví dụ như đữ liệu được sưu
tập từ việc thay đổi kho, điều khiển đầu tư, quan sát các hiện tượng tự nhiên (như nhiệt độ và gi6)
Các kỹ thuật khai phá dữ liệu có thể được dùng để tìm các đặc trưng cia quá trình tiến hóa của đối tượng hoặc khuynh hướng thay đổi của đối
tượng trong CSDL Như thế thông tin có thể được sử dụng để ra quyết định
hoặc lập kế hoạch chiến lược Ví dụ, việc khai phá các dữ liệu nhà băng giúp ta xây dựng lịch biểu cho người thu ngân tùy theo cường độ giao địch
“của khách hàng Các dữ liệu thay đổi trong kho có thể được khai phá để hé
mở khuynh hướng giúp chúng ta lên kế hoạch chiến lược đầu tư (ví dụ lúc ảo là thời gian tốt nhất để mua sắm hàng điện tử?) Như thế các phân tích
điển hình đồi hỏi xác định các hạt nhân thời gien Ví dụ, thời gian có thể
phân rã theo các năm tài chỉnh, năm lịch Các năm có thể cũng được phân theo quý hoặc thắng
2.4.6 CSDL kh6ng gian và thời gian
'CSDL không gian chứa các thông tin liên quan đến không gian Ví dụ
như các dữ liệu về địa lý (bản đồ), việc tích hợp rất lớn, việc thiết kế CSDI,
cổ sự trợ giúp của máy tính, các CSDL y tế, hình ảnh vệ tỉnh CSDL khéng gian có thể được biểu diễn ở dạng vạch quét, chứa dựng các bản để bít n
chiều hoặc các bàn đồ ảnh điểm Ví dụ một ảnh vệ tỉnh 2 chiều có thể biểu
diễn như một dữ liệu vạch quét, nơi mỗi ảnh điểm ghỉ lượng mưa trong một
mùa Các bàn đỗ có thể biểu diễn ở dạng véc-tơ, nơi các con đường, cây
cầu, các tòa nhà, các hồ được biểu diễn như các hợp nhất hoặc các vật phù các cấu trúc địa chất cơ sở, như các điểm, đường, đa giác, các và các
mạng lưới được hình thành bởi các thành phần này
'CSDL địa lý có rắt nhiều ứng dụng, từ việc lập kế hoạch quản lý rừng, và sinh thái tới việc cung cấp các thông tin dịch vụ công cộng về vị trí của các cáp điện và điện thoại, đường ống và các hệ thống công rãnh Thêm vào đó, CSDL, địa lý còn được sử dụng phổ biến trong hệ thống vận tải Một ví dụ về hệ thống như thế là tắc xi sẽ lưu bản đồ thành thị với thông tín quan
tâm đến đường một chiều, các tuyển đường gợi ý để di chuyển từ điểm A
Trang 2932 “Khai phá dữ liệu
đến B trong lúc cao điểm, vị trí khách sạn và bệnh viện cũng như vị trí hiện
tại của lái xe
Loại khai phá dữ liệu nào có thể được thực hiện trên CSDL không
gian? Việc khai phá dữ liệu có thể khám phá các mẫu mô tả các đặc trưng của các tòa nhà ở gần một vị trí đã được chỉ rõ, như là công viên chẳng hạn
Các mẫu khác có thể mô tả khí hậu của vùng núi cao Việc phần loại theo
không gian có thể được thực hiện để xây dựng các mơ hình dự đốn dựa trên tập đặc trưng các đối tượng không gian “Khôi dữ liệu không gian” có
thể được xây dựng để tổ chức dữ liệu thành các cấu trúc đa chiều và các cây
phân cấp, trên đó các toán từ của OLAP (như phép tổng hợp, chỉ tiết hóa) có
thể thực biện
Một CSDL không gian lưu các đối tượng không gian mà có thay đôi vẻ
thời gian được gọi là CSDI, không gian theo thời gian, trong đó người ta
quan tâm đến thông tin hắp dẫn Ví dụ, chúng ta có thể nhóm các đối tượng chuyển động và xác định một vài xe cộ chuyển động khác thường, hoặc
phân biệt một khủng bồ sinh học như cũm trên khoảng rộng địa lý của bệnh ật với thời gian
2.4.7 CSDL văn bản
CSDL van ban la CSDL có chứa các mô tả từ cho đối tượng Các mô tả từ này thường không phải là các từ khóa đơn giản nhưng là những câu hoặc
những đoạn khá dài, như là các mô tả sản phẩm, các báo cáo về lỗi và gỡ lỗi, các thông báo cảnh cáo, các báo cáo tôm tắt, các ghi chú, hoặc các tai
liệu khác Các CSDL, văn bản có thể là phi cấu trúc cao (như một số trang ‘Web trên WWW) Một vai CSDL van bản có thể có chỗ được cấu trúc theo
kiểu nào đấy như nửa cấu trúc (như các thông điệp e-mail và nhiều trang
Web HTML/XML), có chỗ lại có cấu trúc (như các CSDL mục lục thư
viện) CSDL văn bản với cấu trúc cao có thể được cài đặt bằng việc sử dung
các hệ CSDLL quan hệ
Trang 30Chương 2: Tổng quan sề khai phá dữ liệu 3
truy xuất thông tin và việc xây dựng hoặc sử dụng cây phân cấp một cách chính xác cho dữ liệu van bản (như trong hóa sinh, y tế, luật hoặc kinh tế) 2.4.8, CSDL đa phương tiện
Các CSDL đa phương tiện lưu trữ các dữ liệu ảnh, âm thanh, hoạt hình Chúng được dùng trong các ứng dụng như hệ thông truy xuất dựa trên nội dung của ảnh, hệ thống thư thoại, hệ thống đoạn phim theo yêu cầu, World Wide Web, các giao điện người dùng dựa trên bài phát biểu mà các giao điện này nhận ra các lệnh nói CSDL đa phương tiện phải hỗ trợ các đối
tượng lớn, vi các đối tượng dữ liệu như đoạn phim có thể lưu trữ tới hàng Eigabytes Việc lưu trữ đặc biệt và các kỹ thuật tìm kiếm cũng được đồi hỏi 'Vì dữ liệu các đoạn phim hay âm thanh đòi hỏi truy xuất thời gian thực ở một tỷ lệ đều đặn và định trước đễ tránh ảnh hay các lỗ hông âm thanh và
các tràn đầy bộ nhớ hệ thống, tức là dữ liệu được dành cho dữ liệu truyền thông liên tực
Đối với việc khai phá dữ liệu đa phương tiện, các kỹ thuật lưu trữ và
tim kiếm cần được tích hợp với các phương pháp khai phá dữ liệu chuẩn
Các cách tiếp cận hứa hẹn bao gồm việc xây dựng các khối dữ liệu đa phương tiện, trích rút các đa đặc trưng từ dữ liệu đa phương tiện và kết nổi mẫu trên cơ sở đồng dạng
2.4.9 CSDL hén hgp va CSDL di sin
Một CSDLL hỗn hợp chứa một tập các CSDL thành phần tự tị, có quan hệ lẫn nhau Các thành phần đó liên lạc với nhau để thay đổi thông tín và dap img truy vấn, Các đối tượng trong một CSDL thành phần có thể khác biệt hẳn các đối tượng trong CSDL thành phần khác, tạo nên những khó khăn khi so sánh các ngữ nghĩa của chúng trong CSDL hỗn hợp
"Nhiều doanh nghiệp đòi hỏi dữ liệu dĩ sản như là một kết quả của một lich sir dai ciia phát triển CNTT (bao gồm ứng dụng về phần cứng và các bệ
“điều hành khác nhau) Một dữ liệu di sản là một nhóm các CSDL hỗn hợp Chúng là tổ hợp nhiều loại hệ thống dữ liệu khác nhau, như là 'CSDL quan
hệ, hướng đối tượng, phân cắp, mạng, đa phương tiện boặc hệ thống các tệp
'CSDL hến hợp trong một CSDL dị sản có thể kết nổi bằng mạng máy tính: nội bộ hoặc mở rộng
Trang 31
Khasi phá dữ liệu
2.4.10 Các dòng truyền tải dữ liệu
Nhiều ứng dụng bao gồm việc phát sinh và phân tích về một loại dữ
iệu mới được gọi là dữ liệu dòng truyền tải, ở đây luồng dữ liệu ở bên trong và bên ngoài của một nền tảng quan sát (hoặc cửa sổ) một cách động Do vậy các đồng truyền tải dữ liệu có các đặc trưng thống nhất sau: lớn hoặc khối lượng không thể xác định, thay đổi động, luồng chảy trong và ngoài theo thứ tự định sẵn, thời gian đáp ứng nhanh Ví dụ như các loại đa dang về dữ liệu khoa học, kỹ nghệ, dữ liệu chuỗi thời gian và dữ liệu được sản xuất
trong các môi trường động khác, như nguồn năng lượng cung cấp, mạng giao thông, thông tin liên lạc, các dòng kích trang Web, quan sát thời tiết và
môi trường
Vi cée dong dữ liệu là không được lưu trữ bình thường trong một loại
kho chứa dữ liệu nào đấy nên đây là một thách thức không nhỏ đối với các
nhà nghiên cứu Hiện nay, nhiễu nhà nghiên cứu đang điều tra nhiều vấn đề
liên quan tới việc phát triển các hệ thống quản lý dữ liệu dòng Một mô hình truy vấn điển hình là mô hình truy vấn liên tục, với việc xác định các truy vấn các dòng vào có giá trị không đổi, sưu tập dữ liệu kết hợp, báo cáo tình trạng hiện tại của các dòng dữ liệu và đáp ứng các thay đổi của chúng
Việc khai phá các dòng dữ liệu bao gồm các phát hiện hiệu quả các
mẫu chung và các thay đổi động thái bên trong dữ liệu dong Vi dy, ching ta muốn phát hiện giới thiệu của một mạng máy tính đựa trên di thường của luồng thông điệp mã có thể được phát hiện bằng việc phân cụm các dòng dữ liệu, xây dựng động thái của mô hình luỗng hoặc so sánh các mẫu thường xuyên hiện tại với các mẫu trước đây Hầu hết dữ liệu đồng có mặt ở mức độ trừu tượng khá thấp, do vậy các nhà nghiên cứu thường quan tâm nhiễu hơn đến nhiều mớc trừu tượng và mức trừu tượng cao, Do, vậy, việc phân
tích đa mức, đa chiều trên tuyến sẽ giúp việc khai phá dữ liệu dòng có hiệu
q
2.4.11 World Wide Web
World Wide Web và các kết hợp của nó đã phân phối các dịch vụ thông,
tin nhu la Yahoo!, Google, America Online AltaVista, cung cdp các dịch vụ
Trang 32ơng 2: Tổng quan về khai phá dữ 36
thông tin du lịch từ một đối tượng kết nối với nhiều đối tượng khác Do vậy, hệ thống cung cấp các cơ hội và các thách thức cho khai phá dữ liệu
Vi dy, hiểu các mẫu truy nhập của NSD sẽ không chỉ giúp đỡ cải thiện thiết kế hệ thống (nhờ việc cung cấp cách truy nhập hiệu quả giữa các đối
tượng có tương quan cao), mã còn hướng dẫn làm quyết định tốt hơn (ví dụ, bằng việc quảng cáo ở những chỗ thích hợp để các tài liệu đó được độc giả thường xuyên ghé qua, hoặc bởi cung cấp việc phân loại khách hàng/NSD và các phân tích hành vi) Khi lấy được các mẫu truy nhập của NSD trong môi trường thông tin được phân phối như thế được gọi là khai phá lợi ích
Web hoặc khai phá Weblog
Mặc dù các trang Web có thể thể hiện vui mắt và thông tin cho người
đọc tính nhân văn, chúng có thể không có cấu trúc cao và thiếu một sơ đồ,
kiểu hoặc mẫu tiền định Do vậy, điều đó gây khó khăn cho máy tính để hiểu ngữ nghĩa của những trang Web linh tỉnh và cấu trúc chúng theo một cách có tổ chức để truy xuất thông tin về ngữ nghĩa và khai phá dữ liệu Các
dịch vụ Web mà cung cắp việc tìm kiểm dựa trên từ khóa sẽ không hiệu
được ngữ cảnh đẳng sau trang Web chỉ có thể giúp người dùng rất hạn chế 'Ví dụ, một nghiên cứu Web dựa trên một từ khóa đơn có thể trả lại hang trăm trang Web có chứa từ khóa đó, nhưng hầu hết các kết quả đó sẽ không, liên quan nhiều tới cái mà NSD muốn tìm
Khai phá dữ liệu có thể hỗ trợ nhiều sự giúp đỡ hơn so với các địch vụ
tìm kiếm Web, Ví dụ, việc phân tích các trang Web có mối liên kết với nhau
có thể giúp chúng ta phân hạng các trang Web theo tẩm quan trọng của chúng, theo sự ảnh hưởng và chủ đề Việc phân cụm và phân loại các trang
Web tự động giúp việc gộp nhóm và phân hạng trang Web theo phương
cách đa chiều dựa trên nội dung của chúng Việc phân tích tính cộng đồng của Web giúp nhận dạng các mạng xã hội Web ẳn, liên lạc và quan sát tiến hóa của chúng, Khai phá Web là sự phát triển các phân tích dữ liệu Web và các phương pháp khai phá hiệu quả Nó có thé giúp chúng ta biết về ví phân bổ thông tin trên Web nói chung, đặc trưng hóa và phân lớp các trang
'Web, phát hiện tính động của Web, sự kết hợp giữa chúng và những mối
quan hệ khác trong các trang Web khác nhau, phát hiện các NSD, các liên
Trang 33
2.5 CAG CHUC NANG KHAI PHA DU LIEU
‘Ching ta đã xem xét nhiều loại CSDL và kho chứa thông tín trến đó khai phá dữ liệu có thể được thực hiện
Các chức năng khai phá dữ liệu đã được sử dụng để chỉ rõ loại mẫu
phải tìm trong các nhiệm vụ khai phá dữ liệu, Về mặt tổng thể, các nhiệm vụ
khai phá dữ liệu có thể được phân loại thành 2 phạm trù: mé td va die dodn, Các nhiệm vụ mô tả cần làm nỗi bật các thuộc tính chung của dữ liệu trong CSDL Nhiệm vụ dự đoán thực hiện các suy luận trên dữ liệu hiện tại để làm các dự báo
Công việc khai phá dữ liệu mô tả sẽ mô tả các tính chất hoặc đặc tính chung của dữ liệu trong CSDL, nghĩa là phân tích và mô tả một tập mẫu đã biết trong khả năng nhận thức của con người nhằm giúp họ hiểu rõ hơn, sâu hơn về dữ liệu
‘Con công việc khai phá dữ liệu dự đoán sẽ thực hiện việc suy luận dựa trên dữ liệu hiện hành dé cho ra các dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mô bình cho phép dự đoán các mẫu mới
chưa biết
2.6 DÁC LOẠI MAU CO THE ĐƯỢC KHAI PHA VA MAU HAP DAN
2.6.1 Tink hap dẫn của mẫu
Một hệ thống khai phá dữ liệu có thể tiểm an hang nghìn hoặc thậm chí bàng triệu các mẫu hoặc luật Vì vậy vấn đề đặt ra tự nhiên là có phải quan tâm đến tắt cả các mẫu? Chúng ta có thể trả lời ngay là không, vì một người
nào đó chỉ quan tâm đến một vài mẫu mà thôi
Câu hỏi thứ nhất đặt ra là: Cái gi tao ra một mẫu hắp dẫn?
Một mẫu là hấp dẫn nếu nó là dễ hiểu, đáng tỉn với mức chắc chắn nào
Trang 34"hương 2: Tổng quan về khai phá dữ liệu 7
hỗ trợ, thể hiện phần trăm các giao dịch từ một CSDL giao địch mả quy luật
thống kế đem lại Đây chính là xác suất PCKUY), thể hiện một giao dich
chứa cả X và Y, là xác suất của hợp các tập chỉ mục X va Y, Một tiêu chuẩn
“khác đối với luật kết hợp là độ tỉn cậy tức là xác suất tin cậy P(Y/X) - xác
suất mà giao dịch chứa X cũng chứa Y Một cách hình thức, độ hỗ trợ và độ tin cậy được xác định như sau:
‘Support = PXUY), ‘Confidence (X->Y) = P(Y/X)
Nói chung, mỗi tiêu chuẩn về mức quan tâm được kết hợp với một ngưỡng có thẻ điều khiển được bởi NSD, Chẳng hạn, các luật mà không
thỏa mãn một ngưỡng tin cậy thì ta nói 50% là không đáng quan tâm
Mặc dù các tiêu chuẩn khách quan đã giúp được việc nhận dạng mức
hắp dẫn của mẫu nhưng chưa đủ, cần phải có các tiêu chuẩn chủ quan như
tính cần thiết và tính hấp dẫn của mẫu riêng với họ Chẳng hạn các mẫu mô
tả các đặc trưng của khách hing thường mua đồ điện từ chắc chắn là đáng
quan tâm đối với người chào hàng nhưng có thẻ là ít hap dẫn với những nhà phân tích đang nghiên cứu cùng một vấn đề Các tiêu chuẩn về độ quan tâm
có chủ đích được dựa trên những độ tỉn cậy trên dữ liệu của NSD Các tiêu chuẫn này tìm ra các mẫu có khi ngược với độ tin cậy của người dùng hoặc
đem lại thông tin chiến lược giúp ích cho người sử dụng Cuối cùng, các
mẫu được lựa chọn để hành động Mẫu mà hy vọng có thé là đáng quan tâm
nếu chúng khẳng định được giả thuyết rằng NSD mong muốn nó đúng hoặc giếng như linh cảm của người dùng — “
Câu hỏi thứ hai đặt ra là: Một hệ thống khai phá dữ liệu có thể phát
sinh được mọi mẫu hắp dẫn?
Liên quan đến việc hoàn thiện các thuật toán khai phá dữ liệu Đó là điều không thực tế và không hiệu quả đối với hệ thống khai phá dữ liệu để
sinh ra tất cả các mẫu có thể Vì thế, các ràng buộc được cung cấp bởi người
dùng và các phương pháp xem xét khả năng được quan tâm chắc chắn phải
là tiêu điểm nghiên cứu Đối với một số nhiệm vụ khai phá như là sự kết hợp, thường để đảm bảo hồn thiện thuật tốn Việc khai phá theo luật kết
Trang 3538 Khasi pha dit liệu hợp là một ví du sử dụng các rằng buộc va các phương pháp có thể đảm bảo hoàn thành việc khai phá
Câu hỏi thứ ba đặt ra là: Một hệ thống khai phá đữ liệu chỉ sinh ra các
mẫu hấp dẫn?
Đây là một vấn đề tối ưu trong khai phá dữ liệu Điều này gợi mở rất cao cho hệ thống khai phá dữ liệu chỉ sinh ra các mẫu hắp dẫn Điều này chắc hẳn có hiệu quả hơn cho cả NSD và các hệ thống khai phá dữ liệu Bời vậy; việc tối ưu hóa còn là một vấn đề thách đồ trong khai phá dữ liệu
“Các độ đo về tính hắp dẫn của mẫu là cằn thiết đối với việc khám phá các mẫu có hiệu quả theo giá trị mà NSD đưa ra Ví dụ như các độ đo có thể
được sử dụng sau các bước khai phá dữ liệu để xếp loại các mẫu đã phát hiện theo mức quan tâm của ho Điều quan trong hon, các độ đo có thể được sit dụng đễ hướng dẫn và rằng buộc tiến trình khai phá cải tiến bằng cách trích lọc tập con của không gian mẫu mà không thỏa mãn các ràng buộc
Các phương pháp đánh giá/độ đo ước lượng mức hắp dẫn của mẫu và sử dụng chúng đễ tăng hiệu quả khai phá dữ liệu cần được cụ thể với từng loại mẫu được khai thác,
3.6.2 Khai phá các mẫu thường xuyên
Các mẫu thường xuyên là các mẫu xuất hiện thường xuyên trong dir liệu, Có nhiều loại mẫu thường xuyên bao gồm các tập chỉ mục, các day con
vd ede cẫu trúc con
“Một tập chỉ mục thường xuyên điền hình là một tập các chỉ mục mà
thường xuyên xuất hiện cùng nhau trong một tập dữ liệu giao dịch, chẳng hạn như sữa và bánh mỹ
M6t day con xuất hiện thường xuyên giống như mẫu mà khách hàng hướng tới mua đầu tiên là PC, sao đó là máy quay số, sau đó là thẻ nhớ, đó
là một mẫu dãy thường xuyên
.Mật cấu trúc con có thễ có nhiều dạng cầu trúc khác nhau như đồ thị,
Trang 36"Chương 2: Tổng quan về khai phá dữ liệu 39
thường xuyên Việc khai phá các mẫu thường xuyên dẫn tới việc phát hiện các luật kết hợp và các tương quan hắp dẫn nằm trong dữ liệu
'Ví dụ về phân tích kết hợp: giả sử chúng ta muốn xác định xem loại
hàng nào được khách hàng thường xuyên mua củng nhau trong cùng số lần giao dich Vi dy nhu trong CSDL giao dich mua ban đồ điện tử
Buys(X, “computer’) > buys(X, “software") (độ hỗ trợ = 1%, độ tin cậy = 60%]
'Ở đây X là biến biểu thị một khách hang Độ tin cậy hay độ chắc chắn
50% có nghĩa là nếu một khách hàng mua 1 computer thỉ có 50% khả năng,
anh ta sẽ mua software Còn 1% độ hỗ trợ có nghĩa là 1% trong tổng số các giao dịch theo phân tích thấy rằng chúng được mua cùng nhau Luật kết
hợp này bao gồm một thuộc tính đơn hoặc một xác nhận ( , Buys) xuất
hiện Các luật kết hợp cổ chứa đựng một xác nhận đơn là được nói tới các
luật kết hợp đơn chiều Bỏ qua ký hiệu xác nhận, quy tắc trên viết lại đơn
giản như sau:
eompuler -> software [%.80%]
Giả sử cho trước một CSDL quan hệ về hàng điện tử liên quan đến việc mua sắm Một hệ thống khai phá dữ liệu có thể tìm được luật kết hợp như:
Age(X “20 29"income(X, "20K 29K") > buys(X, "CD player") {6 h8 tro = 2%, 60 tin cay = 60%)
Luật nàychỉ rằng các khách mua đồ điện tử theo khảo sát có 2% người
ở độ tuổi 20 tới 29 với thu nhập 20 nghìn đồng tới 29 nghìn đồng đã mua máy nghe nhạc CD trong số hàng điện tử được mua Có khả năng 60%
khách hàng ở độ tuổi đó và thu nhập mức đó mua máy nghe nhạc CD Chú ý:
ting đây là một kết hợp giữa nhiễu hơn một thuộc tính hoặc một xác nhận
( , 8ge, income, buys)
Trang 3740 Kh ph teu Khai phá dữ liệu 2.7 TICH HOP MOT HE THONG KHAI PHA Di LIEU V1 MOT HỆ THỐNG ESDL HOẶC KHO DỮ LIỆU
Trong phần trên, chứng ta đã biết tổng quan về các thành phần kiến trúc chính đối với một hệ thống khai phá dữ liệu điền hình (hình 2.2) Một kiến trúc hệ thống tốt sẽ tạo điều kiện thuận lợi cho hệ khai phá dữ liệu sử dụng tốt nhất môi trường phần mềm, hoàn thảnh các nhiệm vụ khai phá dữ liệu theo các cách hiệu quả và đúng hạn, tương tác và trao đổi thông tin với các hệ thống thông tin khác, là những yêu cầu da dạng, thích nghỉ với người dùng, và tiến hóa theo thời gian
Một câu hỏi điển hình trong thiết kế hệ khai phá đữ liệu là việc tích hợp hoặc ghép đôi hệ khai phá dữ liệu với hệ CSDL vi/hoặe kho dữ liệu như thế
nào Nếu bệ khai phá dữ liệu làm việc như một hệ thống độc lập hoặc được
nhúng vào trong một ứng dụng thì không có hệ CSDI, hoặc hệ kho dữ liệu
nào liên lạ với nó, Sơ đề đơn giản được gọi là không ghép đôi, ở đây, tiêu
điểm chính của việc thiết kế hệ khai phá dữ liệu chỉ còn là việc phát triển các thuật toán hiệu quả để khai phá các tập dữ liệu Tuy nhiên, khi một hệ thống khai phá dữ liệu làm việc trong một môi trường đòi hỏi có liên lạc với các hệ thống thông tin khác, chẳng hạn hur hệ CSDL hoặc hệ kho dữ liệu thì các sơ đồ tích hợp sẽ bao gồm không ghép nối, ghép nỗi lỏng, ghép nói tương đối chặt, ghép nổi chặt
Chúng ta làm rõ một số thuật ngữ trong các sơ đồ tích hợp:
~ Không ghép nổi: không ghép nỗi có nghĩa là hệ khai phá dữ liệu sẽ
không sử dụng một chức năng nào của hệ thống CSDL, hoặc hệ kho dữ liệu
'Nó có thé tim va nap dữ liệu từ các nguồn riêng (chẳng hạn như là các hệ thống tệp), xử lý dữ liệu bằng một số thuật toán khai phá dữ liệu, sau đó lưu trừ các kết quả khai phá trong một tệp khác
Giống như một hệ thống, dù đơn giản, nó cũng có một số hạn chế
“Trước hết một hệ thống khai phá dữ liệu cung cấp một sự đồng bộ lớn về tính mm dẻo và hiệu quả trong việc cắt giữ, tổ chức, truy cập và xử lý dữ phải đành một lượng thời gian đáng liệu Không sử đụng các hệ CSDI hoặc kho dữ liệu, một hệ khai phá dữ liệu
Trang 38Chương 2: Tổng quan về khai phá dữ liệu 41 hệ CSDL hay kho dữ liệu lại có cài đặt nhiễu thuật toán kiểm thi, so sánh và các cấu trúc dữ liệu Hơn nữa, khi sử dụng các hệ này sẽ tăng tính thực
thi các nhiệm vụ cài đặt hiệu quả Và hầu hết các dữ liệu có mặt hoặc được lưu trong các hệ thông đó Thiếu sự ghép nối với các hệ thống như thể, một hệ thống khai phá dữ liệu cần phải sử dụng các công cụ khác để trích lọc dữ liệu, gây nhiều khó khăn đến việc tích hợp giống như một hệ thông thành một môi trường xử lý thông tin Do vậy, không ghép đổi thể hiện một thiết kế tôi
~ Ghép nỗi lỏng: ghép nỗi lòng có nghĩa là một hệ thống khai phá dữ liệu sẽ sử dụng một vài phương tiện của hệ thống CSDL hay kho dữ liệu, tim nạp dữ liệu từ kho chứa dữ liệu được quản lý bảng những hệ này, thực hiện khai phá dữ liệu, rồi sau đó lưu giữ các kết quả khai phá hoặc trong l tệp
hoặc trong một nơi được thiết kế ở trong một CSDL hay một kho dữ liệu
Ghép nối lỏng là tốt hơn không ghép nỗi bởi vì nó có thể tìm nạp một
phần dữ liệu cất trong CSDL hoặc kho dữ liệu bằng việc sử dụng xử lý truy
vấn, chỉ số hỏa và các phương tiện của hệ thống khác Nó bị ảnh hưởng bởi các hệ thống khác như thể để có một số đặc tính như linh hoạt hiệu quả và
nhiều đặc tính khác, Tuy nhiên, nhiễu bệ thống khai phá ghép nối lỏng là dựa trên bộ nhớ chính Vì việc khai phá không khai phá cấu trúc dữ liệu và các
phương pháp tối ưu truy vấn được cung cắp bởi các hệ CSDL và kho dữ liệu
Đó là khó cho cặp lỏng để đạt được thực hiện tốt với một tập dữ liệu lớn
- Gháp nỗi tương đổi chặt: ghép nỗi tương đối chặt nghĩa là bên cạnh
mối liên kết giữa hệ khai phá dữ liệu với hệ CSDL hoặc kho dữ liệu còn có
các thực thì hiệu quả một số nhiệm vụ nguyên thủy khai phá dữ liệu cần thiết (xác định nhờ việc phân tích các chức năng khai phá dữ liệu thường xuyên dùng) có thể được cung cắp trong hệ thống CSDL hoặc kho dữ liệu
Các nhiệm vụ này có thể bao gồm việc sắp xếp, chỉ số hóa, tập hợp, phân
tích lịch sử, kết nối theo nhiều cách, tính toán trước một số phương pháp
thống kế cần, như là tính tổng, đếm, lầy max, min, lệch chuẩn, vì các kết
quả khai phá trung gian hoặc là được tính trước hoặc là được tính trên máy
Trang 3942 Khai phá dữ liệu
So hat phat if
~ Ghép nối chặt: ghép nỗi chặt có nghĩa là một hệ khai phá dữ liệu là được tích hợp nhuần nhuyễn với một hệ CSDL hoặc kho dữ liệu Hệ con khai phá dữ liệu được xem như một thành phần chức năng của 1 hệ thống thông tin Các truy vấn khai phá dữ liệu và các chức năng là được tối ưu hóa
trên cơ sở phân tích truỳ vấn khai phá, các cấu trúc dữ liệu, chỉ số hóa các
sơ đồ, các phương pháp xử lý truy vấn của một hệ CSDL hoặc kho dữ liệu
với sự tiên tiến của công nghệ, các hệ khai phá dữ liệu, CSDL vA kho dit
liệu sẽ tiến hóa và tích hợp với nhau để thành một hệ thông tin với đa chức năng Diéu này sẽ cung cắp một môi trường xử lý thông tin hợp nhất
Cách tiếp cận này có tính hắp dẫn cao vì nó giúp thuận tiện việc thực
biện hiệu quả các chức năng khai phá dữ liệu, các thực hiện mang tính hệ thống cao, và một môi trường xử lý thông tin tích hợp,
+
"Tóm lại, một hệ thống khai phá dữ liệu cằn phải ghép nối với một hệ thống CSDL hay hệ thống kho di liệu Ghép nối lòng dù là nó chưa hiệu đauà, cũng còn tốt hơn không ghép nổi vì nó sử dụng cả 2 phương tiện của cdữ liệu và hệ thống của một hệ thống CSDLL hay hệ thống kho dữ liệu Ghép ối chặt à rắt thích hợp, nhưng việc thực thí của nó là không tằm thường và cần nghiên cứu kỹ hơn Ghép nối tương đối chặt là một hứa hẹn giữa việc ghép nối lòng và chặt Điều quan trọng là nhận dạng các nhiệm vụ khai phá dữ liệu đã sử dụng thông thường và cuy cấp các thực hiện hiệu quả các nhiệm vụ như thế trong các hệ thống CSDL và kho dữ liệu
2.8 CAC VẤN ĐỀ COT LOI VA CAG KY THUAT TRONG KHAI PHÁ DU LIỆU
2.8.1 Các vấn đề cốt lõi trong khai phá dữ liệu
Các vin đề cốt lõi trong khai phá dữ liệu liên quan đến phương pháp
luận khai phá đữ liệu, tương tác NSD, sy thực thỉ và các kiểu dữ liệu đa
dạng Chúng bao gồm:
15 Các sắn đề về phương pháp luận khai phá dữ liệu và tương tác NSD “Các vẫn đề này liên quan đến các loại tr thức đã phát hiện, khả năng khai phá đã liệu trong các nhân hỗn hợp, việc sử dụng các trí thức miễn,
Trang 40
21 m về khai phá dữ “
Phát hiện các loại trì thức khác nhau trong CSDL: do người dùng khác
nhau có thể quan tâm đến các loại trì thức khác nhau nên việc khai phá dữ
liệu bao rộng các nhiệm vụ phân tích dữ liệu va phát hiện trí thức, bao gồm việc đặc trưng hóa dữ liệu, khả năng bóc tách, phân tích kết hợp và tương quan, phân loại, dự đoán, phân cụm, phân tích ngoại lai và phân tích tiên hỏa (bao gồm cả phân tích xu thé và đồng dạng) Các nhiệm vụ này có thể sử dụng cùng một CSDL theo các phương pháp khác nhau và yêu cầu phát triển nhiều kỹ thuật khai phá dữ liệu
.Phát hiện trí thức trong sự tương tác theo nhiễu mức trừu tượng: do cộ
khó khăn trong việc biết chính xác cái gì có thẻ được khai phé trong CSDL, tiến trình khai phá dữ liệu chắc chắn phải xét rong mỗi tương tác Đối với
'C§DL chứa đựng khối lượng lén dữ liệu, các kỹ thuật tựa mẫu trước hết cỏ thể được áp dụng khai thác các dữ liệu có tương tác Việc khai phá theo mối
tương tác cho phép chúng ta tập trung vào việc nghiễn cứu các mẫu, cung
cấp và làm mịn các yêu cầu khai phá dữ liệu dựa trên kết quả thu được, Đặc biệt, các trí thức có thể được khai phá bằng cách lật đi lật lại và xoay quanh không gian dữ liệu và không gian tri thức một các tương tác, giống như cái
mà OLAP có thể làm trên khối dữ liệu Bằng cách đó, NSD có thể tương tác
với hệ thống khai phá dữ liệu để xem dữ liệu và các mẫu đã phát hiện trong các đa tạp và từ các góc nhìn khác nhan
sự hợp thành của các trí thức nên: các trì thức nền hoặc thông tỉn liên quan đến lĩnh vực nghiên cứu có thể được sử dụng, để hướng tiến trình phát hiện cho phép các mẫu được phát hiện được biểu diễn bằng các thuật ngữ
ngắn gọn và ở các mức trừu tượng khác nhau Trỉ thức miền có liên quan tới
CSDL nhur các ràng buộc toàn ven va các quy tắc suy diễn, có 'thể giúp tập trung và tăng tốc tiến trình khai phá dữ liệu hoặc đánh giá tính hấp dẫn của
các mẫu vừa phát hiện
Các ngôn ngữ truy vấn khai phá đữ liệu và khai phá dữ liệu phí thể
hức: các ngôn ngữ truy vấn quan hệ như SQL, cho phép người dùng đưa ra
truy vấn phi thể thức để truy xuất dữ liệu Tương tự, các ngôn ngữ truy vấn khai phá dữ liệu mức cao cần được phát triển để giúp người dùng mô tả các