đồ án công nghệ thông tin CSDL và nhu cầu dữ liệu Meta

có dữliệu về i số; ii văn bản; iii đồ hoạ; iv video; iv dữ liệu meta… Dữ liệumeta có vai trò quan trọng, cho biết mối quan hệ giữa các dữ liệu và tri thức vềCSDL.Việc chỉ ra các dữ liệu

Trang 1

Lời cám ơn

Cám ơn các thày cô giáo trường Đại học Dân lập Hải Phũng, đó dạy dỗchúng em trong nhiều năm qua Cám ơn thày Trần Hữu Nghị đã cho em một máitrường để cho chúng em có cơ hội học được những kiến thức bổ ích để có thể trởthành một công dân có ích cho xã hội Xin chân thành cám ơn thày cô bộ mônTin học đã truyền đạt kiến thức về công nghệ thông tin, một môn học bổ ích, làhành trang vững chắc để em tự tin trong những công việc được giao phó trongthời gian tới

Cám ơn thày Đỗ Trung Tuấn, trường đại học tự nhiên; cám ơn thày VươngĐạo Vy, trường đại học công nghệ, Đại học Quốc gia Hà nội đã giúp đỡ emtrong quá trình thực tập, viết luận văn cũng như quá trình học tập trên ghế nhàtrường Đặc biệt là thày Đỗ Trung Tuấn đã tận tình giúp đỡ em trong quá trìnhthực tập, đã tạo điều kiện cho em được thực tập tại ban công nghệ trường Đạihọc quốc gia Hà Nội để em có thể đem kiến thức mỡnh đó học được trên ghếnhà trường áp dung vào thực tiễn để em có thể nhận thấy mỡnh đó trang bị đượcnhững gì còn thiếu những gì trong hành trang của mình

Cám ơn các anh chị trong ban công nghệ trường Đại học quốc gia Hà Nội

đã tận tình chỉ bảo em trong quá trình thực tập tại ban

Cám ơn gia đình và người thân, đã tận tình giúp đỡ, chu cấp tài chính, độngviên em trong suốt thời gian học tập tại trường

Xin cám ơn các bạn bè trong lớp và các bạn trong khoa cũng như sinh viên

cả trường đã giúp đỡ tôi trong thời gian học tập cũng như trong thời gian làmthực tập tốt nghiệp

Trang 2

MỤC LỤC

Lời cám ơn 1

MỤC LỤC 2

Mở đầu 2

CSDL và nhu cầu dữ liệu Meta 3

1.1 Mô hình dữ liệu quan hệ 3

1.2 Nhu cầu về dữ liệu meta 4

Khai phá dữ liệu 6

1.3 Giới thiệu về khai phá dữ liệu 6

1.4 Một thuật toán về khai phá dữ liệu 13

Luật kết hợp và các tiếp cận 18

1.5 Khai phá luật kết hợp 18

1.6 Lý thuyết về luật kết hợp 19

1.7 Một số hướng tiếp cận trong khai phá luật kết hợp 20

21

Thử nghiệm 22

1.8 Phân tích, thiết kế ứng dụng 22

1.9 Thực hiện khai phá dữ liệu 24

Kết luận 29

1.10 Kết quả đạt dược của luận văn 29

1.11 Phát triển luận văn 29

30

Mở đầu

Nhu cầu về xử lí dữ liệu trong cuộc sống số ngày nay là hiện thực và cấp bách Công nghệ thông tin cho phép người ta xây dựng xã hội tri thức, biến thông tin thành tiền bạc và quyền lực Từ vài thập niên gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin và hệ thống truyền thông thế giới đã có những bước tiến triến mới mà ở đó thông tin và tri thức đóng vai trò rất quan trọng trong mọi mặt đời sống Việc lưu trữ, tổ chức thông tin làm sao cho hiệu quả nhất là một vấn đề được đặt ra

Việc xử lí dữ liệu cần đến kiến thức về cơ sở dữ liệu (CSDL) Nghiên cứu CSDL yêu cầu nghiên cứu về (i) hệ thống thông tin; (ii) hệ quản trị file và hệ

Trang 3

quản trị CSDL; (iii) mô hình dữ liệu; (iv) quản trị bên trong hệ quản trị CSDL…Trong CSDL, người ta dùng nhiều loại dữ liệu, với mục đích khác nhau có dữliệu về (i) số; (ii) văn bản; (iii) đồ hoạ; (iv) video; (iv) dữ liệu meta… Dữ liệumeta có vai trò quan trọng, cho biết mối quan hệ giữa các dữ liệu và tri thức vềCSDL.

Việc chỉ ra các dữ liệu meta có thể thực hiện thông qua tri thức người dùngkhi mô tả các điều kiện toàn vẹn dữ liệu; qua mô hình dữ liệu về thế giới thực;qua việc khai phá dữ liệu Luận văn này trình bày về một khớa cạnh trong cáckhớa cạnh nghiên cứu trên Đó chớnh là khai phá dữ liệu

Luận văn được chia thành các chương :

• Chương 1 Mở đầu

• Chương 2 CSDL và nhu cầu về dữ liệu meta

• Chương 3 Khai phá dữ liệu

• Chương 4 Luật kết hợp và các tiếp cận

• Chương 5 Thử nghiệm việc khai phá dữ liệu

Mô hình được xõy dựng dựa trên lý thuyết tập hợp nên dễ hiểu và dễ biểudiễn bằng toán học Mô hình này bao gồm:

Một hệ thống các ký hiệu để mô tả dữ liệu dưới dạng dòng và cột nhưquan hệ, bộ, thuộc tính, khoá chớnh, khoá ngoài,…

Trang 4

Một tập hợp các phép toán thao tác trên dữ liệu như phép toán tập hợp,phép toán quan hệ.

Ràng buộc toàn vẹn quan hệ

1.2 Nhu cầu về dữ liệu meta

Trong vài thập niên với những tác động mạnh mẽ của các tiến bộ trongcông nghệ công nghệ thông tin và truyền thông, các hệ thống dữ liệu phục vụcho các lĩnh vực kinh tế xã hội đã phát triển, nhu cầu về dữ liệu ngày càngnhiều Sự phong phú về dữ liệu, thông tin cùng với khả năng khai thác kịp thờichỳng đó mang đến những năng xuất và chất lượng mới cho các công tác quản

lý, hoạt động kinh doanh

Yêu cầu về các thông tin trong các lĩnh vực hoạt động đó đòi hỏi cao hơn,người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết,nhiều tri thức để hỗ trợ cho việc ra quyết định của mình

Những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức mới là thực sự,với các nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ trợ giúp

ra quyết định, các thuật toán nhận dạng mẫu, phân lớp, và đặc biệt là khai phá

dữ liệu

Khai phá dữ liệu trở thành một trong những hướng nghiên cứu thu hút sựquan tâm của nhiều người nghiên cứu trong lĩnh vực khác nhau như hệ thốngCSDL, thống kê, trí tuệ nhân tạo, Kho dữ liệu có thể giúp khai thác thông tinbằng các công cụ truy vấn, chiết xuất thông tin và báo cáo cũng như được sửdụng để hỗ trợ việc phân tích trực tuyến, kiểm định các giả thuyết Tuy nhiênchỉ có kho dữ liệu thì chưa thể có được tri thức, nếu dữ liệu được phân tích mộtcách thông minh thỡ chỳng sẽ là nguồn tài nguyên vô cùng quý giá Từ nhữngkhối lượng khổng lồ dữ liệu có sẵn, tìm ra những thông tin tiềm ẩn có giá trị,chưa được phát hiện, những xu hướng phát triển và những yếu tố tác động lờnchỳng là một điều hết sức cần thiết Tiến hành như vậy chính là thực hiện quátrình phát hiện tri thức trong CSDL

Quá trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai đoạn khaiphá dữ liệu là giai đoạn chủ yếu Giai đoạn khai phá dữ liệu được thực hiện sau

Trang 5

cỏc khõu tinhlọc và tiền xử lý dữ liệu, nhằm tìm ra các mẫu, các xu hướng có ýnghĩa từ các tập dữ liệu Chỉ có các mẫu, các xu hướng được xem là đáng quantâm, theo một phương diện nào đó, mới được coi là tri thức Tri thức là có íchkhi nó có thể giúp đạt được mục đích của hệ thống hoặc người dùng Các kỹthuật khai phá dữ liệu được chia làm ba mảng cơ bản (i) phân lớp / phân cụm dữliệu; (ii) các luật kết hợp; và (iii) khai phá chuỗi.

Khai phá luật kết hợp trong những CSDL lớn lần đầu tiên xuất hiện vàonăm 1993 và hiện tại đã và đang được nghiên cứu, phát triển rất mạnh, trở thànhmột khuynh hướng quan trọng của khai phá dữ liệu

Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám phátri thức từ các dữ liệu có sẵn nhằm tăng năng lực cạnh tranh của các ngành kinh

tế đang phát triển nhanh

Trang 6

Khai phá dữ liệu 1.3 Giới thiệu về khai phá dữ liệu

Những năm 60 của thế kỷ trước, người ta bắt đầu sử dụng các công cụ tinhọc để tổ chức và khai thác các CSDL Cùng với sự phát triển vượt bậc của cáccông nghệ điện tử và truyền thông, khả năng thu thập, lưu trữ và xử lý dữ liệucho các hệ thống tin học không ngừng được nâng cao, theo đó, lượng thông tinđược lưu trữ trên các thiết bị như đĩa từ, băng từ, đĩa CD-ROM, không ngừngtăng lên

Theo thống kê sơ bộ, lượng thông tin trờn cỏc hệ thống tin học cứ sau 20tháng lại tăng lên gấp đôi Cuối thập kỷ 80 của thế kỷ 20, sự phát triển rộngkhắp của các CSDL ở mọi quy mô đã tạo ra sự bùng nổ thông tin trên toàn cầu,vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích

dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng caocho người làm quyết định trong các tổ chức tài chính, thương mại, khoa học.Người ta núi “Chỳng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”.Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài nguyờn” có nhiều giá trịbởi thông tin là yếu tố then chốt trong mọi hoạt động quản lý, kinh doanh, pháttriển sản xuất và dịch vụ, Nó giỳp những người điều hành và quản lý có hiểubiết về môi trường và tiến trình hoạt động của các tổ chức trước khi ra quyếtđịnh để tác động đến quá trình hoạt động nhằm đạt được mục tiêu một cách hiệuquả và bền vững

Khai phá dữ liệu là một lĩnh vực mới, nhằm tự động khai thác những thôngtin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn cho các đơn vị,

tổ chức, doanh nghiệp, làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranhcho các đơn vị, tổ chức Các kết quả khoa học cùng những ứng dụng thành côngtrong khám phá tri thức, cho thấy khai phá dữ liệu có thể phát triển bền vững,mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn sovới các công cụ phân tích dữ liệu truyền thống Hiện nay, khai phá dữ liệu đã

Trang 7

ứng dụng ngày càng rộng rãi trong các lĩnh vực, như thương mại, tài chính, điềutrị y học, viễn thông tin – sinh,

1.3.2 Về khai phá dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ

80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trịtiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệuliên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra cácmẫu hình có tính chính quy trong tập dữ liệu

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đó dựng khái niệm Phát

hiện tri thức trong CSDL, để chỉ toàn bộ quá trình phát hiện các tri thức có ích

từ các tập dữ liệu lớn; trong đó khai phá dữ liệu là một bước đặc biệt trong toàn

bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các môhình từ dữ liệu

Ở một mức độ trừu tượng nhất định có thể định nghĩa về khai phá dữ liệu :

Data Mining là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn.

Khám phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, do vậyhai khái niệm đó được xem như hai lĩnh vực tương đương nhau Nhưng, nếuphân chia một cách tách bạch thì khai phá dữ liệu là một bước chính trong quátrình KDD

1.3.3 Quá trình phát hiện tri thức trong CSDL

Khám phá tri thức trong CSDL (KDD) là lĩnh vực liên quan đến các ngànhnhư: thống kê, học máy, CSDL, thuật toán, trực quan hoá dữ liệu, tính toán songsong và hiệu năng cao,…

Mục đích của quá trình phát hiện tri thức là rút ra tri thức từ dữ liệu trongCSDL lớn Quá trình KDD là quá trình gồm nhiều giai đoạn và lặp lại, mà trong

đó sự lặp lại có thể xuất hiện ở bất cứ bước nào

Quá trình đó có thể được mô tả theo hình sau:

Trang 8

Các bước thực hiện trong quá trình phát hiện tri thức

Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước

này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn cácphương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của

dữ liệu

Bước thứ hai là thu thập và xử lý thụ, cũn được gọi là tiền xử lý dữ liệu

nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệunếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ quitrình phát hiện tri thức

Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu

hoặc/và các mô hình ẩn dưới các dữ liệu

Bước thứ tư là hiển thị tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô

tả và dự đoán Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được cóthể được lấy trung bình trên tất cả các lần thực hiện

1.3.4 Nhiệm vụ chính trong khai phá dữ liệu

Mục đích của khai phá dữ liệu là chiết xuất các tri thức từ dữ liệu Do đó có

thể coi mục đích chính của khai phá dữ liệu sẽ là mô tả và dự đoán Các mẫu mà

khai phá dữ liệu phát hiện được nhằm vào các mục đích này

Trang 9

Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong CSDL

để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá

trị trong tương lai của các biến đáng quan tâm Mô tả tập trung vào việc tìm

kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được

Nhiệm vụ chính của khai phá dữ liệu :

Phân lớp, phân loại Phân loại là việc xác định một hàm ánh xạ từ một mẫu

dữ liệu vào một trong số các lớp đã được biết trước đó Mục tiêu của thuật toánphân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phânlớp Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo chocác mục mới Các kiến thức được phát hiện biểu diễn dưới dạng các luật theocách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của các

Thí dụ một mục biểu diễn thông tin về nhân viên cú cỏc thuộc tính dự báo

là: họ tên, tuổi, giới tính, trình độ học vấn, … và thuộc tính phân loại là

trình độ lãnh đạo của nhân viên.

Hồi quy Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một

biến dự đoán có giá trị thực Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm

vụ hồi quy, ví dụ như dự đoán số lượng biomass xuất hiện trong rừng biết cácphép đo vi sóng từ xa, đánh giá khả năng tử vong của bệnh nhân biết các kết quảxét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng mộthàm chỉ tiêu quảng cáo, dự đoán theo thời gian với các biến đầu vào là các giátrị của mẫu dự đoán trong quá khứ, v.v…

Phân nhóm là việc mô tả chung để tìm ra các tập xác định cỏc nhúm hay

các loại để mô tả dữ liệu Cỏc nhúm có thể tách riêng nhau hoặc phân cấp hoặcgối lên nhau Có nghĩa là một dữ liệu có thể vừa thuộc nhóm này, vừa thuộcnhóm kia Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như: pháthiện tập các khách hàng có phản ứng giống nhau trong CSDL tiếp thị, xác địnhcác loại quang phổ từ các phương pháp đo tia hồng ngoại

Tóm tắt liờn quan đến các phướng pháp tìm kiếm một mô tả tóm tắt cho

một tập con dữ liệu Ví dụ như việc lập bảng các độ lệch chuẩn và trung bìnhcho tất cả các trường Các phương pháp phức tạp hơn liên quan đến nguồn gốc

Trang 10

của các luật tóm tắt, khai thác mối liên hệ hàm giữa cỏc biờn Cỏc kỹ thuật tómtắt thường được áp dụng cho các phân tích dữ liệu tương tác có tính thăm dò vàtạo báo cáo tự động.

Mô hình hóa phụ thuộc bao gồm việc tìm kiếm một mô hình mô tả sự phụ

thuộc đáng kể giữa các biến Các mô hình phụ thuộc tồn tại dưới hai mức:

• Mức cấu trúc của mô hình xác định (thường ở dạng đồ họa) các biếnnào là phụ thuộc cục bộ với nhau

• Mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộctheo một thước đo nào đó Ví dụ như các mạng phụ thuộc xác suất sửdụng độc lập có điều kiện để xác định khía cạnh có cấu trúc của một

mô hình và các xác suất hoặc tương quan để xác định độ mạnh của sựphụ thuộc Các mạng phụ thuộc xác suất đang ngày càng tìm thấynhiều ứng dụng trong các lĩnh vực khác nhau như phát triển các hệchuyên gia y tế áp dụng tính xác suất từ các CSDL, thu thập thông tin,

mô hình hóa gen di truyền của người

Phát hiện sự thay đổi và chuyển hướng Tiếp cận tập trung vào khai thác

những thay đổi đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đotrước đó

1.3.5 Các kĩ thuật khai phá dữ liệu

1.3.5.1 Các kĩ thuật tiếp cận

Khám phá tri thức trong CSDL là một lĩnh vực liên ngành, bao gồm: Tổchức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác, sự kết hợp này cóthể được diễn tả như trong hình dưới

Trang 11

Trên quan điểm của học mỏy, cỏc kỹ thuật trong Data Mining gồm:

Học có giám sát: Là quá trình gỏn nhón lớp cho các phần tử trong CSDLdựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết

Học không có giám sát: Là quá trình phân chia một tập dữ liệu thành cáclớp hay là cụm (clustering) dữ liệu tương tự nhau mà chưa biết trước các thôngtin về lớp hay tập các ví dụ huấn luyện

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp dựatrên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãnlớp đã biết trước

Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu cú cỏc kỹ thuật

áp dụng sau :

Phân lớp và dự đoán: xếp một đối tượng vào một trong những lớp đã biếttrước Ví dụ: phân lớp các bệnh nhân dữ liệu trong hồ sơ bệnh án Hướng tiếpcận này thường sử dụng một số kỹ thuật của học máy như cây quyết định, mạng

nơ ron nhân tạo Phân lớp và dự đoán còn được gọi là học có giám sát

Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa cácthành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu làtập luật kết hợp tìm được Có thể lấy một ví dụ đơn giản về luật kết hợp như sau:phân tích CSDL bán hàng nhận được thông tin về những khách hàng mua máytính cũng có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần muađược miêu tả trong luật kết hợp sau:

“Mua máy tính → Mua phần mềm quản lý tài chớnh” [Độ hỗ trợ: 4%, độtin cậy: 70%] Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâmcủa luật Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật

đã khám phá Độ hỗ trợ 4% có nghĩa là: 4% của tất cả các tác vụ đã phântích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được muacùng nhau Còn độ tin cậy 70% có nghĩa là 70% các khách hàng mua máytính cũng mua phân mềm quản lý tài chính

Trang 12

Phân tích chuỗi theo thời gian: Tượng tự như khai phá luật kết hợp nhưng

cú thờm tớnh thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiềutrong lĩnh vực tài chính và thị trường chứng khoán vỡ nó có tính dự báo cao.Phân cụm: xếp các đối tượng theo từng cụm dữ liệu tự nhiên Phân cụmcòn được gọi là học không có giám sát

Mô tả khái niệm: thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ:tóm tắt văn bản

1.3.5.2 Dạng dữ liệu có thể khai phá

Do Data Mining được ứng dụng rộng rãi nờn nó có thể làm việc với rấtnhiều kiểu dữ liệu khác nhau Sau đây là một số dạng dữ liệu điển hình: CSDLquan hệ, CSDL đa chiều, CSDL dạng giao dịch, CSDL quan hệ-hướng đốitượng, dữ liệu không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đaphương tiện, dữ liệu Text và Web, ,

Khai phá dữ liệu ứng dụng vào rất nhiều lĩnh vực Sau đây là một số lĩnhvực khá điển hình:

Luật kết hợp là một biểu thức có dạng: X ⇒Y, trong đó X và Y là tập các

trường gọi là item í nghĩa của các luật kết hợp khá dễ nhận thấy: Cho trước một

CSDL có D là tập các giao tác - trong đó mỗi giao tác T∈D là tập các item

-khi đóX ⇒Ydiễn đạt ý nghĩa rằng bất cứ khi nào giao tác T có chứa X thì chắcchắn Tcó chứa Y Độ tin cậy của luật (rule confidence) có thể được hiểu nhưxác suất điều kiệnp(Y ⊆T|X ⊆T) í tưởng của việc khai thác các luật kết hợp cónguồn gốc từ việc phân tích dữ liệu mua hàng của khách và nhận ra rằng “Mộtkhách hàng mua mặt hàng X1 và X2 thì sẽ mua mặt hàng Y với xác suất là c%”

Trang 13

Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh cùng với tính

dễ hiểu vốn có của chúng – ngay cả đối với những người không phải là chuyêngia khai thác dữ liệu – làm cho luật kết hợp trở thành một phương pháp khaithác phổ biến Hơn nữa, luật kết hợp không chỉ bị giới hạn trong phân tích sựphụ thuộc lẫn nhau trong phạm vi các ứng dụng bán lẻ mà chỳng cũn được ápdụng thành công trong rất nhiều bài toán kinh doanh

Như vậy, khai phá luật kết hợp là một phương pháp xử lý thông tin quantrọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu

1.4 Một thuật toán về khai phá dữ liệu

1.4.1 Ý tưởng thuật toán Apriori

Apriori là một thuật giải được Rakesh Agrawal, Tomasz Imielinski, Arun

Swami đề xuất lần đầu vào năm 1993 Thuật toán tìm giao dịch t có độ hỗ trợ và

độ tin cậy thoả mãn lớn hơn một giá trị ngưỡng nào đó

Thuật toán được tỉa bớt những tập ứng cử viên có tập con không phổ biếntrước khi tính độ hỗ trợ

Thuật toán Apriori tính tất cả các tập ứng cử của tập k trong một lần duyệt CSDL Apriori dựa vào cấu trúc cây băm Tìm kiếm đi xuống trên cấu trúc cây

mỗi khi ta chạm lá, ta tìm được một tập ứng cử viên có tiền tố chung được baogồm trong giao dịch Sau đó các tập ứng cử này được tìm trong giao dịch đãđược ánh xạ trước đó Trong trường hợp tìm thấy biến đếm được tăng lên 1

Gồm 2 bước:

Tạo tập item phổ biến: tạo tất cả các tập item dự kiến, tính toán độ hỗ trợ,loại bỏ các tập dự kiến không đạt minsupp

• Kiểm tra tập 1 item có là phổ biến không

• Lần duyệt thứ k: Sử dụng các tập Lk-1 của tập k-1 item phổ biến để tạotập dự kiến Ck (dùng hàm apriori_gen) Duyệt CSDL và tính supportcho Ck

Trang 14

• Lk: là tập hợp của các tập k_item phổ biến, mỗi phần tử là một tập có 2trường itemset, support.

• Ck: tập hợp của tập k_item dự kiến

Trực quan về thuật toán Apriori

Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp vàtính độ tin cậy của luật

• Từ tập item phổ biến L, tìm tất cả các tập con không rỗng f Ì L rồi tạo

ra luật f đ L – f thoả mãn minconf

VD: Nếu {A,B,C,D} là tập item phổ biến thỡ cú cỏc luật dự kiến:ABC đD, ABD ABD đC, ACD ACD đB, BCD BCD đA, A

A đBCD,B B đACD,C C đABD, D D đABCAB

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

Trang 15

• Nếu L có k item thì có thể tạo ra 2k-2 luật kết hợp dự kiến(bỏ qua luật

L đ ặ và ặ đ L)

• Dựa vào tính chất của độ tin cậy để tạo ra luật có conf >= minconf

• Độ tin cậy không có tính chất c(ABC đD) có thể lớn hơn hay nhỏ hơnc(AB đD)

• Nhưng nếu luật được sinh ra từ cùng một tập item phổ biến thỡ cúthuộc tính đó:

VD: L = {A,B,C,D}

c(ABC đ D) ³ c(AB đ CD) ³ c(A đ BCD)

Sinh luật

1.4.3 Ví dụ minh hoạ thuật toán Apriori

Cho CSDL dưới đây, tỡm cỏc tập phổ biến có độ hỗ trợ tối thiểu là 60% Tập các tập mục phổ biến mà ví dụ trên thu được là:

L = L1∪ L2∪ L3 = { {A},{B},{D},{A, B},{A, D},{B, D},{A, B, C}}

Thuật toán Apriori được xây dựng nhằm phát hiện các luật kết hợp giữacác đối tượng với độ hỗ trợ và độ tin cậy tối thiểu

ABCD=>{ }

BCD=>A ACD=>B ABD=>C ABC=>D

BC=>AD BD=>AC

CD=>AB AD=>BC AC=>BD AB=>CD

D=>ABC C=>ABD B=>ACD A=>BCD

Định dạng
Số trang	30
Dung lượng	646 KB