1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống
3.3.3. Làm cho cỏc hiển thị cú thể hiểu đƣợc
Đõy chớnh là kỹ thuật diễn tả cỏch trỡnh bày thụng tin đối tƣợng, nú cú đủ sức mạnh giỳp ta trỡnh bày dữ liệu. Dựa vào sự mó hoỏ cỏc thuộc tớnh thụng tin trong hiển thị ta cú thể hiển thị lại ở mọi nơi. Đầu tiờn, ta cú kớch thƣớc của tập dữ liệu đƣợc trớch ra từ tập dữ liệu ban đầu, tiếp theo, dựa vào mụ hỡnh dữ liệu đó lựa chọn, một tập cỏc đối tƣợng đƣợc tạo ra phản ỏnh thế giới thực và những gỡ đó định nghĩa trong tập dữ liệu. Điều này cũng định nghĩa sự phõn tớch vỡ mụ hỡnh ta cú sẽ chắc chắn bao gồm chỳng và loại trừ những phần nhất định. Một khi dữ liệu đƣợc đƣa vào trong cỏc thể hiện trực quan thỡ đối tƣợng kết quả cú thể đƣợc trỡnh bày bằng cỏch kết hợp cỏc vị trớ, đặc điểm hỡnh thức hoặc nhón. Dựa vào độ lớn của kớch thƣớc đƣợc sử dụng trong hiển thị ta cú thể dễ dàng nhận đƣợc hai mƣơi hoặc nhiều hơn nữa cỏc miếng thụng tin từ dữ liệu.
Chỳng ta khụng thể xem xột đƣợc hiển thị trong khụng gian rộng lớn ngay lập tức, chỳng ta sẽ dần dần phõn tớch dữ liệu, sau một quỏ trỡnh khi đó quen thỡ cỏc giải quyết sẽ ớt rắc rối hơn và cỏc cõu hỏi về thụng tin ngày càng hẹp lại, do đú ta cú thể xử lý thụng tin dễ dàng hơn.
3.4. NHỮNG CÁCH TIẾP CẬN PHÂN TÍCH.
Sử dụng phƣơng phỏp trực quan để phõn tớch sự tƣơng tỏc của cỏc đối tƣợng qua thể hiện của chỳng. Tại đõy sự phõn lớp cỏc mẫu đƣợc bộc lộ bởi cấu trỳc của đối tƣợng và giỏ trị cú liờn quan hoặc vị trớ của chỳng trong thể hiện. Trong trƣờng hợp sử dụng cấu trỳc mạng thỡ một kớch thƣớc đƣợc thờm vào để tạo liờn kết giữa cỏc lớp đối tƣợng. Phõn tớch mụ hỡnh mạng cú thể làm lộ ra cỏc mẫu thụng tin bổ sung.
Trong phần này ta sẽ cú đƣợc cỏc loại kết luận đƣợc biểu diễn trờn mụ hỡnh trực quan.
3.4.1. Phõn tớch đặc điểm cấu trỳc
Rất nhiều cỏc kết luận đƣợc đƣa ra một cỏch đơn giản bằng việc nhỡn vào cấu trỳc trỡnh bày. Những phần tử trong cảnh qua cú thể chỉ ra nơi cú cỏc mẫu đang ẩn. Việc xếp đặt và xuất hiện của cỏc đối tƣợng cú thể mang đến rất nhiều thụng tin cho ngƣời dựng. Những mẫu bất thƣờng cú thể đem lại thụng tin về cỏc dữ liệu đó mất hoặc cho ta cỏc mẫu rất bất ngờ. Hơn nữa, hỡnh thức thể hiện cú thể đƣa ra cỏc dị thƣờng nhƣ dữ liệu với cỏc giỏ trị trỏi luật, nhúm dữ liệu với tỷ lệ và kớch thƣớc khụng bằng nhau. Chỳng ta luụn luụn phõn tớch trực quan bằng việc xem xột cỏc thể hiện hoặc dữ liệu mà khụng cú cỏc nhón đối tƣợng hoặc cỏc sự xếp đặt, điều đú làm cho chỳng ta nhỡn sự việc tổng quan hơn.
Những giỏ trị vƣợt giới hạn.
Thớnh thoảng hiển thị của cỏc thụng tin bờn ngoài rừ đến mức nú thể kiểm tra ngay lập tức cấu trỳc dữ liệu của nú. Bằng phƣơng phỏp vẽ biểu đồ biểu diễn mật độ
cỏc đối tƣợng ta xỏc định đƣợc cỏc giỏ trị ở bờn ngoài nhƣ trong hỡnh trờn [6]. Dữ liệu mất tớch.
Đụi khi mục đớch của phõn tớch sẽ phỏt hiện ra những bản ghi cần phải cú mặt nhƣng thật ra đó mất tớch từ tập dữ liệu. Nếu khi gọi thụng tin mà bất kỳ mảng nào của thụng tin mất tớch thỡ chỳng ta biết rằng sự thất bại của hệ thống xuất hiện. Bởi vậy, nếu chỳng ta muốn kiểm tra liệu cỏc chức năng hệ thống hoạt động đỳng ở bất kỳ điểm nào, chỳng ta cú thể tập hợp dữ liệu đƣợc gọi và phải xỏc định bất kỳ bản ghi nào là khụng đầy đủ.
Làm ƣớc lƣợng, một ma trận kiểm thử đƣợc phỏt sinh để định nghĩa những tham số của những trƣờng hợp điển hỡnh. Ma trận sẽ bao gồm những thực thể mụ tả cỏch bố trớ, xếp đặt. Một ma trận kiểm thử chuẩn sẽ chứa đựng thụng tin mụ tả một hàng nghỡn bản ghi tế bào. Cỏc kiểm thử thƣờng dựng những cụng nghệ tế bào phần cứng chuyờn dụng cú khả năng ghi tất cả cỏc điều kiện vận hành. Một danh sỏch điều khiển “chủ" đƣợc phỏt sinh từ phần cứng để trở thành là cơ sở để thử hệ thống nhƣ thế nào là tốt khi phần cứng hoặc phần mềm cú thay đổi, nõng cấp.
Khi dựng mụ tả trực quan dạng bú, dữ liệu đƣợc bú theo tập cỏc đặc tớnh, sự khụng nhất quỏn cú thể dễ dàng đƣợc xỏc định giữa điều khiển và những tập dữ liệu chuyển đổi. Cỏi mà chỳng ta tỡm kiếm trong những sơ đồ này là một tập hợp chắc chắn những cặp đụi giữa dữ liệu điều khiển và dữ liệu chuyển đổi dựa vào những giỏ trị đó thực hiện sự xếp nhúm.
Giỏ trị vượt giới hạn
Hỡnh sau[6] cho thấy rằng một màn hỡnh mà để lộ ra dữ liệu mất tớch trong tập dữ liệu ứng dụng. Cỏc dữ liệu mất tớch thỡ khụng cú đụi, trong khi những bản ghi tỡm thấy trong sơ đồ chỉ bỏo một lỗi trong tế bào mạng. Nhƣ vậy, những sơ đồ cú thể rất nhanh chúng để lộ ra những xung khắc cho cấu hỡnh đú bởi việc phơi bày dữ liệu mất tớch. Sự Phõn tớch dữ kiện dạng bảng trong vấn đề này cú thể là một quỏ trỡnh khú khăn và dài. Tuy vậy, ta cú thể ngay lập tức thấy rằng dữ liệu mất tớch một khi những tập dữ liệu đƣợc gửi cho một mỏy hiển thị.
Những mẫu dị thƣờng
Cỏc tập dữ liệu chứa đựng cỏc đại diện thỡ rất tuõn thủ cỏc nguyờn tắc trong kiến trỳc của chỳng sao cho chỳng cú động lực thỳc đẩy lẫn nhau trong cỏc biến cố (biến cố này thỳc đẩy biến cố kia). Hơn nữa, trong nhiều trƣờng hợp, những sự kiện cú thể đƣợc chờ đợi xuất hiện trong một thứ tự đặc biệt. Khi một loạt sự kiện xuất hiện sai thứ tự, điều này cấu thành một sự dị thƣờng mà cú thể dẫn đến một mẫu quan trọng.
3.4.2. Phõn tớch cấu trỳc mạng
Mụ hỡnh cấu trỳc mạng:[6]
Vấn đề kết nối
Điều kiện 1 Điều kiện 2 Điều kiện 3 Điều kiện 4 Điều kiện 5
Đơn vị kiểm thử Điều khiển Chuyển đổi
Liờn kết Đối tượng
Trong một số trƣờng hợp chỳng ta cần nghiờn cứu cỏc dữ liệu quan trọng vớ dụ nhƣ của chớnh phủ, thụng thƣờng chỳng ta khụng đƣợc cấp quyền truy cập dữ liệu vỡ lý do an ninh, ngoài ra chỳng ta cũng khụng cú dữ liệu sạch để phõn tớch. Khi đú chỳng ta dựng giải phỏp dung hoà, chỳng ta định hỡnh một cụng cụ trực quan để tải dữ liệu trong khuụn dạng nhất định trong mụ hỡnh trung, tiếp theo ta xõy dựng cỏc hàm hiển thị để lấy cỏc thụng tin mụ tả nhất định. Mụ hỡnh này cú thể lộ ra dữ liệu nguyờn thuỷ hoặc nội dung dữ liệu.
Mỗi lần thụng tin đƣợc đƣa vào trong mụ hỡnh, chỳng ta cú thể giỳp đỡ chỳng xỏc định những mẫu then chốt và cỏc phần tử dữ liệu mẫu trong màn hỡnh đơn dựa trờn cơ sở thể hiện của cấu trỳc đối tƣợng. Sử dụng cụng cụ phõn tớch liờn kết chỳng ta dễ dàng xỏc định cỏc đối tƣợng cú kết nối cao với nhau và cỏc mối quan hệ khỏc thƣờng hoặc khụng trựng lặp nhiều lắm với phần cũn lại của dữ liệu. Xa hơn nữa, dựa trờn sự xếp nhúm cỏc thuộc tớnh, chỳng ta chỉ ra nới mà mối quan hệ trong tập dữ liệu tồn tại mạnh mẽ nhất. Khi những khỏch hàng của chỳng ta muốn kiểm tra những giỏ trị của những đối tƣợng đặc biệt thỡ chỳng ta cú thể trỡnh bày cỏc thụng tin này. Nhƣ vậy, chỳng ta cú thể thực hiện sự phõn tớch thành cụng và chớnh xỏc bởi việc khảo sỏt cấu trỳc mạng.
Điểm nối bản lề
Cỏch tiếp cận phõn tớch dựng cụng nghệ trực quan húa để phỏt hiện những nỳt cổ chai hoặc khớp nối trong tập dữ liệu. Chẳng hạn, những đối tƣợng dữ liệu nối hai hoặc nhiều hơn cỏc mạng con cú thể rất quan trọng trong việc là điểm nối bản lề trong toàn bộ mạng. Nếu một đối tƣợng nối bản lề tồn tại bờn trong mạng thƣờng xuyờn thỡ nú chỉ bỏo rằng đối tƣợng đƣợc đại diện cú một vai trũ quan trọng trong thể hiện. Cú thể cú nhiều điểm nối bản lề bờn trong một mạng cú thể hoặc khụng cú thể đỏp ứng những hàm tƣơng tự.
Một điểm nối bản lề cú thể đại diện là một đối tƣợng cú số lƣợng kết nối lớn hoặc quỏ độ. Nếu đối tƣợng bị loại bỏ thỡ toàn bộ cấu trỳc mạng bị ảnh hƣởng đỏng kể. Đối tƣợng quan trọng đƣợc xỏc định từ mụ hỡnh đƣợc sử dụng trong trỡnh bày dữ liệu.
Trong một mụ hỡnh mạng cú cấu trỳc phức tạp và lớn, tất yếu cú cỏc mạng mức dƣới, cỏc mạng này rất hữu ớch cho quỏ trỡnh phõn tớch. Tất cả cỏc mạng này đều riờng biệt hoặc cụ lập để cú thể đƣợc phõn tớch một cỏch độc lập, do đú cấu hỡnh của nú đƣợc xỏc định độc lập. Đụi khi mục đớch của phõn tớch mạng khỏm phỏ những mạng mức dƣới tồn tại trong một tổ chức mạng lớn hơn. Vớ dụ, khi phõn tớch mụ hỡnh nhõn sự ta cú thể phỏt hiện ra cỏc nhõn viờn hoặc cỏc bộ phận tỏch rời khỏi tổ chức, khi đú sẽ cú cỏc thụng bỏo để tổ chức lại nếu cần.
Trong những thể hiện khỏc, mục đớch nghiờn cứu là xõy dựng mạng từ cỏc mạng riờng bịờt. Chẳng hạn, cảnh sỏt cú thể xõy dựng cho một tập dữ liệu chứa đựng thụng tin riờng lẻ về những tờn trộm đờm xuất hiện bờn trong một thành phố lớn. Sau đú với việc lọc ra cỏc thuộc tớnh riờng cú thể cụ lập cỏc tờn tội phạm và do đú dễ dàng xử lý hơn.
Kết nối mất tớch
Những kết nối mất tớch cú thể cấu thành một dạng đặc biệt của mụ hỡnh mạng riờng biệt, khi đú mạng mức dƣới sẽ gồm một đối tƣợng đơn. Những phần mất tớch cú thể phản ỏnh dữ liệu mõu thuẫn hoặc khụng đầy đủ và khi đú cần phải xem xột cẩn thận để điều đú là chắc chắn. Cần phải cho ý rằng nếu đó dựng lọc trong hiển thị trực quan thỡ việc mất tớch cú thể do nguyờn nhõn này.
Trọng số kết nối.
Nhỡn vào thể hiện trực quan ta cú thể thấy đƣợc quan hệ trong tập dữ liệu thụng qua mối liờn kết giữa cỏc đối tƣợng. Cỏc kết nối đú mạnh hay yếu là tuỳ thuộc vào mối quan hệ trờn thực tế của dữ liệu. Vớ dụ, trong mụ hỡnh bỏn hàng, mối quan hệ giữa hàng hoỏ và khỏch hàng sẽ thể hiện hàng nào đƣợc bỏn chạy hay khụng, mối quan hệ này mạnh hay yếu là dựa vào số lần đặt hàng, số lần mua và số lƣợng bỏn ra.
Khỏm phỏ những mẫu nổi bật của kết nối
Cú một vài kỹ thuật đƣợc ỏp dụng rất tốt trong mụ hỡnh mạng. Cỏc giải thuật đặc biệt này làm lộ ra mẫu nổi bật trong kết nối. Cỏc mẫu này chỉ ra cỏc cấu trỳc ẩn trong tƣơng tỏc thõn cận giữa cỏc nỳt. Cỏc nỳt này đƣợc nhúm lại với nhau để tạo sự kết nối vững chắc hơn trong nội bộ so với cỏc nỳt bờn ngoài.
1. Nhúm nổi bật.
Giải thuật nhúm nổi bật cú thể sử dụng để xỏc định những nhúm đối tƣợng ràng buộc với nhau bằng quan hệ.
Giải thuật: Giải thuật dựa trờn 3 tiờu chuẩn: Nhúm phải chứa ớt nhất ba nỳt ứng viờn.
Mỗi thành viờn trong nhúm phải cú mối quan hệ chỉ định tối thiểu với cỏc thành viờn trong nhúm.
Tối thiểu cú một con số chắc chắn của tổng cỏc mối quan hệ cho mỗi thực thể tồn tại duy nhất với một thực thể đƣợc đề nghị trong nhúm. Cỏc tiờu chuẩn này cú thể đƣợc thay đổi tuỳ theo tong trƣờng hợp để đạt đƣợc kết quả cao nhất.
Chỳng ta cú mụ hỡnh vớ dụ:[6]
2. Cỏc thành phần khoỏ khụng thuộc vào nhúm.
Khụng phải là tất cả cỏc phần tử dữ liệu đều phõn lớp vào duy nhất một nhúm. Tuy nhiờn, những phần tử dữ liệu ngoại lệ cú thể đúng vai trũ then chốt trong toàn cấu trỳc mạng. Phụ thuộc vào ứng dụng thỡ vai trũ này cú thể rất quan trọng trong việc hiểu cấu trỳc dữ liệu. Sau đõy là ba vai trũ bổ sung cho sự phõn lớp cỏc kiểu đối tƣợng này
Liờn lạc: Liờn lạc là cỏc đối tƣợng đúng vai trũ khoỏ thành phần trong mạng chớnh của thực thể. Chỳng cú thể khụng là bộ phận của nhúm nào, nhƣng chỳng lại cú kết nối cao đến cỏc nỳt khỏc trong mụ hỡnh. Chỳng quan trọng vỡ chỳng cú thể
bắc cầu qua những chỗ trống giữa hai hoặc nhiều hơn hai nhúm trong toàn bộ cấu trỳc.
Gắn liền cỏc phần cụ lập: Những thực thể này cú một vai trũ đỏng quan tõm trong mạng bởi vỡ chỳng đƣợc nối tới những đối tƣợng khỏc, sau này với cỏc ràng buộc dần dần nú sẽ là thành viờn của nhúm nổi bật hoặc nhúm liờn lạc.
Cụ lập cỏc biệt lập: Những thực thể này đơn giản khụng phải là thành phần hoặc bất kỳ mạng xõy dựng thành. Chỳng khụng thuộc về bất kỳ nhúm nào mà cũng khụng cú hỗ trợ kết nối tới mọi thực thể khỏc bờn trong mạng.
3.4.3. Phõn tớch những mẫu thời gian.
Trong cỏc trƣờng hợp nghiờn cứu về giao dịch thƣơng mại, tài chớnh, viễn thụng… thỡ yếu tố thời gian đƣợc xem là rất quan trọng trong cỏc ứng dụng kiểu này.
Trong trƣờng hợp đơn giản nhất, ta cú thể sử dụng thụng tin ngày thỏng làm đại diện. Những mẫu xỏc định trong một chuỗi thời gian gồm cú vài thành phần khỏc nhau :
Khuynh hƣớng: Sự tăng trƣởng lờn hoặc xuống mụ tả đặc điểm dữ liệu trong một thời gian.
Chu trỡnh: Lờn xuống tuần hoàn xung quanh cỏc mức khuynh hƣớng.
Thời vụ: Những mẫu mà tự hoàn thành trong một năm hoặc thời kỳ định trƣớc nào đú.
Bất thƣờng: Sự chuyển động bất thƣờng trong một chuỗi thời gian mà khụng đi theo mẫu bỡnh thƣờng.
3.4.4. Thiết lập cỏc lớp mẫu thời gian.
Chỳng ta cú định nghĩa về hai phạm trự mẫu thời gian tuyệt đối và mẫu thời gian kề nhau. Thời gian tuyệt đối tham chiếu đến số lƣợng thời gian thực tế bị mất trờn bất kỳ sự kiện nào hoặc giữa tập cỏc sự kiện. Giỏ trị thời gian tuyệt đối tham chiếu làm tới số lƣợng thời gian trụi qua của thế giới thực. Thời gian kề nhau dƣờng nhƣ chỉ liờn quan đến thứ tự cỏc sự kiện. Với thời gian này, số lƣợng thời gian khụng đƣợc xem xột mà chuyển qua xem xột thứ tự tƣơng đối giữa cỏc sự kiện. Những đặc trƣng này của mẫu thời gian cú thể sử dụng để định nghĩa và phỏt hiện
ra những mẫu sự kiện – chu trỡnh bờn trong một tập dữ liệu. Một sự kiện – chu trỡnh cú thể đƣợc định nghĩa là sự kết hợp đặc biệt giữa hai đối tƣợng xuất hiện với một tần số nhất định.
Mụ hỡnh mụ tả thời gian tuyệt đối và thời gian kề nhau:[6]
KẾT LUẬN: Cỏc phƣơng phỏp khai phỏ dữ liệu trực quan ỏp dụng trờn cỏc tập dữ liệu phức tạp và lớn. Trong cỏc phƣơng phỏp này chủ yếu tập trung tỡm ra cỏc đặc tớnh cấu trỳc, cỏc đặc tớnh chung của dữ liệu, từ đú cú thể quan sỏt để phõn tớch dữ liệu.
Thời gian tuyệt đối Thời gian kề nhau
CHƢƠNG 4. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU THễNG DỤNG.
Trong chƣơng trƣớc chỳng ta đó thấy đƣợc phƣơng phỏp khai phỏ dữ liệu trực quan là cụng nghệ rất mạnh. Khai phỏ dữ liệu trực quan giỳp cho ngƣời sử dụng dễ dàng thực hiện hơn việc khai phỏ dữ liệu dự họ khụng hiểu rừ lắm về phạm vi của thụng tin vỡ khụng cần phải đƣa ra nhiều giả thuyết khi bắt đầu.
Trong phần này chỳng ta sẽ tỡm hiểu cỏc cụng cụ khai phỏ dữ liệu khỏc của cụng nghệ khai phỏ dữ liệu.
4.1. PHƢƠNG PHÁP THỐNG Kấ. 4.1.1. Phƣơng phỏp thống kờ.
Trong phƣơng phỏp này, ta sử dụng những thụng tin đƣợc thống kờ để suy