1. Trang chủ
  2. » Luận Văn - Báo Cáo

MÔ PHỎNG THUẬT TOÁN APRIORI TÌM TẬP PHỔ BIẾN & LUẬT KẾT HỢP

43 1,8K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 911,5 KB

Nội dung

1/ Khái niệm: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tựđộng khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữliệu khổng lồ và phức tạp,

Trang 1

**********    **********

TIỂU LUẬN CHUYÊN ĐỀ

KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU

Thành phố Hồ Chí Minh

11/2012

Trang 2

MỤC LỤC

DANH MỤC CÁC HÌNH 3

LỜI NÓI ĐẦU 4

Chương I>Giới thiệu: 5

Chương II>Khai phá dữ liệu: 6

1/ Khái niệm: 6

2/ Quá trình phát hiện tri thức: 6

3/ Các phương pháp khai phá dữ liệu: 9

4/ Các tác vụ khai phá dữ liệu: 16

Chương III>Luật kết hợp: 19

1/ Một số khái niệm cơ bản: 19

2/ Khai phá luật kết hợp: 20

3/ Tình trạng nghẽn cổ chai của thuật toán Apriori: 26

4/ Các cải tiến của thuật toán Apriori: 26

5/ Một số biến thể của thuật toán Apriori: 26

Chương IV>Cài đặt thuật toán tìm luật kết hợp: 32

1/ Giới thiệu chương trình: 32

2/ Một số đoạn mã chính để xây dựng chương trình: 33

3/ Hướng dẫn sử dụng chương trình: 38

Chương V>Kết luận & Hướng phát triển đề tài: 40

1/ Kết luận : 40

2/ Hướng phát triển đề tài: 41

TÀI LIỆU THAM KHẢO 42

Trang 3

DANH MỤC CÁC HÌNH

Hình 1: Quá trình phát hiện tri thức 8

Hình 2: Hỗ trợ ra quyết định 8

Hình 3: Sơ đồ quá trình khai phá dữ liệu bằng mạng 15

Hình 4: Tri thức đạt được từ quá trình khai phá 19

Hình 5: Sơ đồ so sánh Apriori và AprioriTid 29

Hình 6: So sánh 3 thuật toán Apriori, AprioriTid và AprioriHybrid 30

Hình 7: Các giai đoạn áp dụng khuôn mẫu của thuật toán Apriori DT 31

Hình 8: Giao diện chính của chương trình 32

Hình 9: Mở tập tin 38

Hình 10: Thêm mặt hàng 38

Hình 11: Thêm giao tác 39

Hình 12: Độ hỗ trợ và độ tin cậy 39

Hình 13: Kết quả thực hiện 39

Trang 4

LỜI NÓI ĐẦU

Sự bùng nổ, phát triển của công nghệ thông tin (CNTT) và việc ứng dụng CNTTtrong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồngnghĩa với việc thu thập và lưu trữ dữ liệu càng ngày càng tăng Chúng ta bị trànngập trong dữ liệu nhưng lại đói khát tri thức Việc tổ chức quản lý và sử dụngnhững dữ liệu đó như thế nào trong tương lai lại là một bài toán nan giải của cácdoanh nghiệp nói chung và trong lĩnh vực kinh doanh nói riêng Trong môi trườngcạnh tranh, người ta cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc raquyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lờidựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý do đó, các phươngpháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng

được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật Phát

hiện tri thức và Khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).

Khai phá dữ liệu bao gồm rất nhiều những kỹ thuật phân tích dữ liệu bên trongnhư: luật kết hợp, phân loại dữ liệu, gom nhóm dữ liệu, lập mô hình, dự báo…nhưng tiềm ẩn quan trọng nhất vẫn là phương pháp tìm luật kết hợp để tạo ra các trithức hữu dụng Ví dụ như chúng ta có thể dự đoán được những sản phẩm nào sẽđược mua nhiều trong tương lai đối với hệ thống siêu thị hay dự đoán thị trường đốivới lĩnh vực kinh doanh chứng khoán…

Trong phạm vi bài tiểu luận này người nghiên cứu xin trình bày một cách tổngquát nhất về những khái niệm của Data Mining và đồng thời cài đặt thử nghiệm

chương trình mô phỏng thuật toán Apriori để tìm tập phổ biến, từ đó suy ra các luật

kết hợp tương ứng

Qua bài thu hoạch, em xin gửi lời cảm ơn chân thành, sâu sắc đến thầy PGS.TS

Đỗ Phúc, người đã tận tình truyền đạt cho em những kiến thức sâu rộng, bổ ích về

môn Khai phá dữ liệu và kho dữ liệu Từ đó giúp em nắm vững hơn về cơ sở lý

thuyết, và có được một nền tảng kiến thức cơ bản tạo điều kiện thuận lợi để emhoàn thành tốt bài tiểu luận này Bên cạnh đó em cũng xin gửi lời cảm ơn đến cácanh/chị trong cùng khóa học đã nhiệt tình chia sẽ tài liệu và những thông tin cầnthiết trong suốt quá trình học

Thân mến,

Người nghiên cứu

Trang 5

Chương I> Giới thiệu:

Sự bùng nổ của CNTT đồng nghĩa với việc bùng nổ dữ liệu Theo thống kê, rấtnhiều tập đoàn lớn trên thế giới đã lưu trữ một số lượng khổng lồ về CSDL như:Google (90 triệu tìm kiếm/ngày), trung tâm tính toán khoa học nghiên cứu nănglượng quốc gia Mỹ tháng 3/2010 khoảng 460 TB, Youtube sau hai năm hàng trămtriệu video, dung lượng CSDL của Youtube tăng gấp đôi sau mỗi chu kỳ 5 tháng,tổng lượng giao vận IP trên mạng năm 2010 là 20.396 PB/tháng, ước tính từ năm

2009 đến năm 2014 tăng trung bình hàng năm khoảng 34% (nguồn sách trắngCissco 2010), khoảng 13,5 tỷ trang web được đánh chỉ số ngày 23/01/2011,…Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học,

dữ liệu tài chính, và các dữ liệu tiếp thị,… Con người không có đủ thời gian để xemxét dữ liệu như vậy Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá

Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tựđộng tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉdẫn các dị thường Đây là một trong những lĩnh vực năng động và thú vị nhất củacộng đồng nghiên cứu cơ sở dữ liệu Các nhà nghiên cứu trong lĩnh vực bao gồmthống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vựcnày Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ

phi thường trong vài thập kỷ gần đây (Theo Jim Gray, chuyên gia của Microsoft,

giải thưởng Turing 1998).

Thông tin từ khan hiếm tới dư dật Điều đó mang lại lợi ích mới to lớn… tạo nênkhả năng làm được nhiều việc mà trước đây không thể thực hiện được như: nhận racác xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm … Được quản lý tốt,

dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế,

cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý (Theo

Kenneth Cukier).

Từ những phân tích trên ta có thể dễ dàng thấy được việc khai phá dữ liệu đểchọn lọc ra những tri thức hữu ích giữ vai trò ngày càng cao Hiện nay khai phá dữliệu được ứng dụng vào rất nhiều lĩnh vực cụ thể khác nhau như: y tế, dầu khí, khítượng, kinh doanh, y học, web mining, tin-sinh, tài chính và thị trường chứngkhoán, bảo hiểm Để có được những tri thức hữu ích ấy thì CIO và các chuyên giaphân tích dữ liệu cũng có tầm ảnh hưởng quan trọng không kém

Người phân tích

dữ liệu

Người lập trình

Nhà thống kê

Nghệ nhân

dữ liệu

Trang 6

Chương II> Khai phá dữ liệu:

Khai phá dữ liệu (Datamining) được định nghĩa như là một quá trình chắt lọchay khai phá tri thức từ một lượng lớn dữ liệu Một ví dụ hay được sử dụng là việckhai thác vàng từ đá và cát, Datamining được ví như công việc "Đãi cát tìm vàng"trong một tập hợp lớn các dữ liệu cho trước Thuật ngữ Datamining ám chỉ việc tìmkiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuậtngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như KnowledgeMining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/paternanalysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu),

1/ Khái niệm:

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tựđộng khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữliệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu

đó.

Khai phá dữ liệu là một bước quan trọng trong các bước của quá trình phát hiện

tri thức (Knowledge Discovery in Database – KDD)

2/ Quá trình phát hiện tri thức:

Là quá trình khám phá các tri thức mới và các tri thức hữu ích ở dạng tiềm năng trong nguồn dữ liệu đã có Nó không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của công nghệđiện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểm của mộtlĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức (KnowledgeDiscovery) và khai phá dữ liệu (Data Mining)

Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và các kýhiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chươngtrình dưới một dạng nhất định Chúng ta sử dụng các bit để đo lường các thông tin

và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tốithiểu để đặc trưng một cách cơ bản cho dữ liệu Chúng ta có thể xem tri thức như làcác thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Cácmối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học.Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao

Trang 7

Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặccác mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểuđược Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm cócác thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tínhtoán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói mộtcách khác, mục đích của phát hiện tri thức và khai phá dữ liệu chính là tìm ra cácmẫu hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị chekhuất bởi kho tàng dữ liệu.

Các nhà thống kê thì xem khai phá dữ liệu như là một qui trình phân tích đượcthiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thíchhợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợpthức hoá các kết quả tìm đưọc bằng cách áp dụng các mẫu đã phát hiện được chocác tập con mới của dữ liệu Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò,xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng

Quá trình phát hiện tri thức được mô tả tóm tắt như sau:

a) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu, hiệu chỉnh những phần

dữ liệu không nhất quán

b) Làm giàu dữ liệu (data enrichment): tích hợp dữ liệu từ các nguồn khác

nhau như: CSDL, kho dữ liệu, file text

c) Chọn lọc dữ liệu (data selection): chọn những dữ liệu liên quan trực tiếp

đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

d) Chuyển đổi dữ liệu (data transformation): dữ liệu sẽ được chuyển đổi về

dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhómhoặc tập hợp

e) Khai phá dữ liệu (data mining): là giai đoạn quan trọng nhất, trong đó các

phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu

f) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu

diễn tri thức dựa vào một số phép đo

g) Biểu diễn dữ liệu (knowlegde presentation): sử dụng các kỹ thuật trình

diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người

sử dụng

Trang 8

Hình 1: Quá trình phát hiện tri thức

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:

a) Các nguồn dữ liệu (Data Sources)

b) Nhà kho dữ liệu (Data Warehouses)

c) Thăm dò dữ liệu (Data Exploration)

d) Khai phá dữ liệu (Data Mining)

e) Trình bày dữ liệu (Data Presentation)

f) Ra quyết định (Making Decisions)

Trang 9

3/ Các phương pháp khai phá dữ liệu:

Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khaiphá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, phânloại (Classification), hồi quy (Regression), phân nhóm (Clustering), tổng hợp(Summarization), mô hình ràng buộc (Dependency modeling), dò tìm biến đổi và độlệch (Change and Deviation Dectection), biểu diễn mô hình (ModelRepresentation), kiểm định mô hình (Model Evaluation), phương pháp tìm kiếm(Search Method),…

3.1/ Các thành phần của giải thuật khai phá dữ liệu:

Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn môhình, đánh giá mô hình, tìm kiếm mô hình

3.1.1/ Biểu diễn mô hình:

Mô hình được biểu diễn bằng một ngôn ngữ L để mô tả các mẫu có thể khai thácđược Nếu sự mô tả quá bị hạn chế thì sẽ không thể học được hoặc sẽ không thể cócác mẫu tạo ra được một mô hình chính xác cho dữ liệu Ví dụ một mô tả cây quyếtđịnh sử dụng phân chia các nút theo trường đơn, chia không gian đầu vào thành cácmặt siêu phẳng song song với các trục thuộc tính Phương pháp cây quyết định nhưvậy không thể khai thác được từ dữ liệu dạng công thức x=y dù cho tập học có tođến đâu đi nữa Vì vậy, việc quan trọng là người phân tích dữ liệu cần phải hiểu đầy

đủ các giả thiết mô tả Một điều cũng khá quan trọng là người thiết kế giải thuật cầnphải diễn tả được các giả thiết mô tả nào được tạo ra bởi giải thuật nào Khả năng

mô tả mô hình càng lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và làmgiảm đi khả năng dự đoán các dữ liệu chưa biết Hơn nữa, việc tìm kiếm sẽ càng trởnên phức tạp hơn và việc giải thích mô hình cũng khó khăn hơn

Mô hình ban đầu được xác định bằng cách kết hợp biến đầu ra (phụ thuộc) vớicác biến độc lập mà biến đầu ra phụ thuộc vào Sau đó phải tìm những tham số màbài toán cần tập trung giải quyết Việc tìm kiếm mô hình sẽ đưa ra được một môhình phù hợp với các tham số được xác định dựa trên dữ liệu (trong một số trườnghợp, mô hình được xây dựng độc lập với dữ liệu trong khi đối với một số trườnghợp khác thì mô hình và các tham số lại thay đổi để phù hợp với dữ liệu) Trongmột số trường hợp, tập dữ liệu được chia thành tập dữ liệu học và tập dữ liệu thử.Tập dữ liệu học được sử dụng để làm cho các tham số của mô hình phù hợp với dữliệu Mô hình sau đó sẽ được đánh giá bằng cách đưa các dữ liệu thử vào mô hình

và thay đổi lại các tham số cho phù hợp nếu cần Mô hình lựa chọn có thể là phươngpháp thống kê như SASS, v.v…, một số giải thuật học máy (ví dụ như suy diễn cây

Trang 10

quyết định và các kỹ thuật học có thầy khác), mạng neural, suy diễn hướng tìnhhuống (case-based reasoning), các kỹ thuật phân lớp.

3.1.2/ Đánh giá mô hình:

Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn của quá trình phát hiệntri thức hay không Việc đánh giá độ chính xac dự đoán dựa trên đánh giá chéo(cross validation) Đánh giá chất lượng mô tả liên quan đến độ chính xác dự đoán,

độ mới, khả năng sử dụng, khả năng hiểu được của mô hình Cả hai chuẩn thống kê

và chuẩn logic đều có thể được sử dụng để đánh giá mô hình Ví dụ như luật xácsuất lớn nhất có thể dùng để lựa chọn các tham số cho mô hình sao cho xử lý phùhợp nhất với tập dữ liệu học Việc đánh giá mô hình được thực hiện qua kiểm tra dữliệu (trong một số trường hợp kiểm tra với tất cả các dữ liệu, trong một số trườnghợp khác chỉ kiểm tra với dữ liệu thử) Ví dụ như đối với mạng neural, việc đánhgiá mô hình được thực hiện dựa trên việc kiểm tra dữ liệu (bao gồm cả dữ liệu học

và dữ liệu thử), đối với nhiệm vụ dự đoán thì việc đánh giá mô hình ngoài kiểm tra

dữ liệu còn dựa trên độ chính xác dự đoán

3.1.3/ Phương pháp tìm kiếm:

Phương pháp tìm kiếm bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm

mô hình Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ưu hóacác tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và với một mô tả môhình đã định Việc tìm kiếm không cần thiết đối với một số bài toán khá đơn giản:các đánh giá tham số tối ưu có thể đạt được bằng các cách đơn giản hơn Đối vớicác mô hình chung thì không có các cách này, khi đó giải thuật “tham lam” thườngđược sử dụng lặp đi lặp lại Ví dụ như phương pháp giảm gradient trong giải thuậtlan truyền ngược (backpropagation) cho các mạng neural Tìm kiếm mô hình xảy ragiống như một vòng lặp qua phương pháp tìm kiếm tham số: mô tả mô hình bị thayđổi tạo nên một họ các mô hình Với mỗi một mô tả mô hình, phương pháp tìmkiếm tham số được áp dụng để đánh giá chất lượng mô hình Các phương pháp tìmkiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước củakhông gian các mô hình có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa cácgiải pháp đơn giản (closed form) không dễ đạt được

3.2/ Một số phương pháp khai thác dữ liệu phổ biến:

3.2.1/ Phương pháp quy nạp:

Trang 11

Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng

có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việcnày là suy diễn và quy nạp

Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông

tin trong cơ sở dữ liệu Phương pháp suy diễn dựa trên các sự kiện chính xác

để suy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách

sử dụng phương pháp này thường là các luật suy diễn

Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh

ra từ cơ sở dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứkhông phải bắt đầu với các tri thức đã biết trước Các thông tin mà phương phápnày đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượngtrong cơ sở dữ liệu Phương pháp này liên quan đến việc tìm kiếm các mẫutrong CSDL Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyếtđịnh và tạo luật

3.2.2/ Phương pháp cây quyết định và luật:

Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân

các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gánnhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộctính, các lá mô tả các lớp khác nhau Các đối tượng được phân lớp theo cácđường đi trên cây, qua các cạnh tương ứng với các giá trị, thuộc tính của đốitượng tới lá

Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về

mặt thống kê Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với mộtphần trong CSDL, Q là mệnh đề dự đoán

Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suydiễn khá dễ hiểu đối với người sử dụng Tuy nhiên, giới hạn của nó là mô tả cây vàluật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độchính xác của mô hình

Đối với quy mô lớn, người ta dựa trên các phương pháp đánh giá mô hình theoxác suất với các mức độ mô hình phức tạp khác nhau Các phương pháp tìm kiếm

“tham lam”, liên quan đến việc tăng và rút gọn các luật và các cấu trúc cây, chủ yếuđược sử dụng để khai thác không gian siêu mũ (super-exponential space) của các

Trang 12

mô hình Cây và luật chủ yếu được sử dụng cho việc mô hình hóa dự đoán, phân lớp(Apte & Hong; Fayyad, Djorgovski, & Wei) và hồi quy Chúng cũng có thể được ápdụng cho việc tóm tắt và mô hình hóa các mô tả (Agrawal et al.).

3.2.3/ Phương pháp phát hiện luật kết hợp:

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệutrong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợptìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữahai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuấthiện của B trong cùng bản ghi đó: A = > B

Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu lớn làkhông khó Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc là tachỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật Ví dụchỉ có số ít người mua sách tiếng anh mà mua thêm đĩa CD Số lượng các luật kếthợp trong một số cơ sở dữ liệu lớn gần như vô hạn Do vậy thuật toán sẽ không thểphát hiện hết các luật và không phân biệt được luật nào là thông tin thực sự có giátrị và thú vị

Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng hạn

ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua sách

âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD Lúc đó ta quan tâm đến số lượngtrường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ cho luậtnày Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc, ngoạingữ, thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên

Tuy nhiên giá trị hỗ trợ là không đủ Có thể có trường hợp ta có một nhóm tươngđối những người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn hơnnhững người thích sách thể thao, âm nhạc, ngoại ngữ mà không thích mua đĩa CD.Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao Như vậychúng ta cần thêm một độ đo thứ hai đó là độ tin cây (Confidence) Độ tin cậy là phầntrăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể thao, ngoại ngữ.Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật dạng X

=> B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và độ tin cậycủa luật không nhỏ hơn ngưỡng Minconfi cho trước Từ một cơ sở dữ liệu ta có thểtìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

Trang 13

3.2.4/ Phương pháp phân lớp và hồi quy phi tuyến:

Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kếthợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàmmành), hàm đa thức) phù hợp với các kết hợp của các giá trị biến vào Các phươngpháp thuộc loại này như mạng neural truyền thẳng, phương pháp mành thích nghi,v.v… (Friedman 1989, Cheng & Titterington 1994, Elder & Pregibon) Xét về mặtđánh giá mô hình, mặc dù mạng neural với kích thước tương đối hầu như lúc nàocũng có thể mô phỏng bất kỳ hàm nào gần đúng với một độ chính xác mong muốnnào đó Nhưng để tìm được một mạng có kích thước tối ưu cho một tập dữ liệu xácđịnh lại là một việc khá công phu và không ai có thể biết chắc có tìm ra được kíchthước đó hay không Các phương pháp sai số bình phương chuẩn (standard squarederror) và các hàm entropy (cross entropy loss function) được sử dụng để học có thểđược xem như các hàm khả năng logarit (log-likelihood functions) khi phân lớp vàhồi quy (Geman, Bienentstock & Doursat 1992; Ripley 1994) Lan truyền ngược sai

số là một phương pháp tìm kiếm tham số thực hiện việc giảm gradient trong khônggian tham số (ở đây là các trọng số) để tìm một giá trị cực đại cục bộ của hàm xácsuất bắt đầu từ các giá trị khởi tạo ngẫu nhiên Các phương pháp hồi quy phi tuyếnmặc dù rất có khả năng diễn tả nhưng lại rất khó diễn giải thành các luật

3.2.5/ Phương pháp phân nhóm và phân đoạn:

Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao chomỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó Mối quan hệthành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và

từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm Một kỹthuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của cácthành phần như là hàm của các tham số của các thành phần Phương pháp này đượcgọi là phương pháp phân hoạch tối ưu (optimal partitioning) Một ví dụ của phươngpháp phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng, ứng dụng củaphương pháp tối ưu ví dụ như phân nhóm khách hàng theo số các tham số và cácnhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm

Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫuchứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu.Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ởdạng dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt độngcũng như công việc phân tích Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này làrất quan trọng

Trang 14

3.2.6/ Phương pháp dựa trên mẫu:

Sử dụng các mẫu mô tả từ cơ sở dữ liệu để tạo nên một mô hình dự đoán cácmẫu mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong môhình Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồiquy (Dasarathy 1991) và các hệ thống suy diễn dựa trên tình huống (case-basedreasoning) (Kolodner 1993)

Khuyết điểm của các kỹ thuật này là cần phải xác định được khoảng cách, độ đogiống nhau giữa các mẫu Mô hình thường được đánh giá bằng phương pháp đánhgiá chéo trên các lỗi dự đoán (Weiss & Kulikowski, 1991) “Tham số” của mô hìnhđược đánh giá có thể bao gồm một số láng giềng dùng để dự đoán và số đo khoảngcách Giống như phương pháp hồi quy phi tuyến, các phương pháp này khá mạnhtrong việc đánh giá xấp xỉ các thuộc tính, nhưng lại rất khó hiểu vì mô hình khôngđược định dạng rõ ràng mà tiềm ẩn trong dữ liệu

3.2.7/ Phương pháp mô hình phụ thuộc dựa trên đồ thị xác suất:

Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiện thông quacác liên hệ trực tiếp theo các cung đồ thị (Pearl 1988; Whittaker, 1990) Ở dạng đơngiản nhất, mô hình này xác định những biến nào phụ thuộc trực tiếp vào nhau.Những mô hình này chủ yếu được sử dụng với các biến có giá trị rời rạc hoặc phânloại Tuy nhiên cũng được mở rộng cho một số trường hợp đặc biệt như mật độGaussian hoặc cho các biến giá trị thực

Trong trí tuệ nhân tạo và thống kê, các phương pháp này ban đầu được phát triểntrong khuôn khổ của các hệ chuyên gia Cấu trúc của mô hình và các tham số (xácsuất có điều kiện được gắn với các đường nối của đồ thị) được suy ra từ các chuyêngia Ngày nay, các phương pháp này đã được phát triển, cả cấu trúc và các tham số

mô hình đồ thị đều có thể học trực tiếp từ cơ sở dữ liệu (Buntine; Heckerman) Tiêuchuẩn đánh giá mô hình chủ yếu là ở dạng Bayesian Việc đánh giá tham số là một

sự kết hợp các đánh giá dạng đóng (closed form estimate) và các phương pháp lặpphụ thuộc vào việc biến được quan sát trực tiếp hay ở dạng ẩn Việc tìm kiếm môhình dựa trên các phương pháp leo đồi trên nhiều cấu trúc đồ thị Các tri thức trước

đó, ví dụ như việc sắp xếp một phần các biến dựa trên mối quan hệ nhân quả, có thểrất có ích trong việc làm giảm không gian tìm kiếm mô hình Mặc dù phương phápnày mới ở giai đoạn đầu của việc nghiên cứu nhưng nó đã cho thấy nhiều hứa hẹn vìdạng đồ thị dễ hiểu hơn và biểu đạt được nhiều ý nghĩa hơn đối với con người

Trang 15

Trong khi mẫu chiết xuất được bằng các luật suy diễn và cây quyết định gắnchặt với các mệnh đề logic (propositional logic) thì mô hình học quan hệ (còn đượcgọi là lập trình logic quy nạp – inductive logic programming) sử dụng ngôn ngữmẫu theo thứ tự logic trước (first-order logic) rất linh hoạt Mô hình này có thể dễdàng tìm ra công thức X=Y Cho đến nay, hầu hết các nghiên cứu về các phươngpháp đánh giá mô hình này đều theo logic trong tự nhiên.

3.2.9/ Phương pháp Text Mining:

Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại.Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm, phân tích và phân lớp các

dữ liệu văn bản không định dạng Các lĩnh vực ứng dụng như nghiên cứu thị trường,thu thập tình báo, v.v… Khai phá dữ liệu dạng văn bản đã được sử dụng để phântích câu trả lời cho các câu hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệuphức tạp

3.2.10/ Phương pháp mạng Neural:

Mạng neural là tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúctoán học với khả năng học Các phương pháp là kết quả của việc nghiên cứu môhình học của hệ thống thần kinh con người Mạng neural có thể đưa ra ý nghĩa từcác dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất cácmẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuậtmáy tính khác không thể phát hiện được

Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng neural.Tuy mạng neural có một số hạn chế gây khó khăn trong việc áp dụng và triển khainhưng nó cũng có những ưu điểm đáng kể Một trong số những ưu điểm phải kể đếncủa mạng neural là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể

áp dụng được cho rất nhiều loại bài toán khác nhau, đáp ứng được nhiệm vụ đặt racủa khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa, dự báo các sự kiệnphụ thuộc vào thời gian, v.v…

Hình 3: Sơ đồ quá trình khai phá dữ liệu bằng mạng

Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu ra của mạng.Mạng neural sử dụng các hàm số chứ không sử dụng các hàm biểu tượng (symbol

Dữ liệu Mô hình mạng Mẫu chiết xuất được

Trang 16

functions) để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của nó.Trong mạng lan truyền ngược mà ta sẽ đề cập cụ thể ở phần sau, mỗi nút khái niệmđược kết hợp với một ngưỡng Vì vậy trong mạng lan truyền ngược, các mẫu (haycác luật) của một khái niệm là sự kết hợp của các trọng số lớn hơn ngưỡng

Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầuquá trình học như các phương pháp khác Tuy nhiên, để có thể sử dụng mạng neural

có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:

Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên giađáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt Sau khihọc, mạng có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừađược học

4/ Các tác vụ khai phá dữ liệu:

Các tác vụ khai phá dữ liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưnghóa và phân biệt hóa dữ liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đoán,gom cụm, phân tích xu hướng, phân tích độ lệch và phần tử biên, phân tích độtương tự,…

4.1/ Năm thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu:

Dữ liệu cụ thể sẽ được khai phá (task-relevant data): Phần dữ liệu từ các dữ

liệu nguồn được quan tâm Tương ứng với các thuộc tính hay chiều dữ liệu Baogồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối dữ liệu, các điềukiện chọn dữ liệu, các thuộc tính hay chiều dữ liệu được quan tâm, các tiêu chí gomnhóm dữ liệu

Loại tri thức sẽ đạt được (kind of knowledge): Bao gồm: đặc trưng hóa dữ

liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình

Trang 17

hình phân tích tiến hóa Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, môhình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, môhình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiến hóa.

Tri thức nền (background knowledge): Tương ứng với lĩnh vực cụ thể sẽ

được khai phá Hướng dẫn quá trình khám phá tri thức: Hỗ trợ khai phá dữ liệu ởnhiều mức trừu tượng khác nhau Đánh giá các mẫu được tìm thấy Bao gồm: cácphân cấp ý niệm, niềm tin của người sử dụng về các mối quan hệ của dữ liệu

Các độ đo (interestingness measures): Thường đi kèm với các ngưỡng giá trị

(threshold) Dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu được tìmthấy Tương ứng với loại tri thức sẽ đạt được và do đó, tương ứng với tác vụ khaiphá dữ liệu cụ thể sẽ được thực thi Kiểm tra: tính đơn giản (simplicity), tính chắcchắn (certainty), tính hữu dụng (utility), tính mới (novelty)

4.2/ Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu:

Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure):

 Mô hình là mô tả của tập dữ liệu, mang tính toàn cục ở mức cao

 Mẫu là đặc điểm, đặc trưng của dữ liệu, mang tính cục bộ, chỉ chomột vài bản ghi, đối tượng hay vài biến

 Cấu trúc biểu diễn các dạng chức năng chung với các thông số chưađược xác định trị

 Cấu trúc mô hình là một tóm tắt toàn cục về dữ liệu

 Cấu trúc mẫu là những cấu trúc liên quan một phần tương đối nhỏ của

dữ liệu hay của không gian dữ liệu

Hàm tỉ số (score function):

 Hàm tỉ số là hàm xác định một cấu trúc mô hình hay mẫu đáp ứng tập

dữ liệu đã cho tốt ở mức độ nào đó

 Hàm tỉ số cho biết liệu một mô hình có tốt hơn các mô hình khác haykhông

 Hàm tỉ số không nên phụ thuộc nhiều vào tập dữ liệu, không nênchiếm nhiều thời gian tính toán

 Một vài hàm tỉ số thông dụng như: likelihood, sum of squared errors,misclassification rate,…

Trang 18

Phương pháp tìm kiếm và tối ưu hóa (optimization and search method):

 Mục tiêu của phương pháp tìm kiếm và tối ưu hóa là xác định cấu trúc

và giá trị các thông số đáp ứng tốt nhất hàm tỉ số từ dữ liệu sẵn có

 Tìm kiếm các mẫu và mô hình

 Không gian trạng thái: tập rời rạc các trạng thái

 Phương pháp tìm kiếm: chiến lược tham lam, có dùngheuristics, chiến lược nhánh-cận

 Tối ưu hóa thông số

Chiến lực quản lý dữ liệu (data management strategy):

 Dữ liệu được khai phá

 Ít, toàn bộ được xử lý đồng thời trong bộ nhớ chính

 Nhiều, trên đĩa, một phần được xử lý đồng thời trên bộ nhớchính

 Chiến lược quản lý dữ liệu hỗ trợ cách dữ liệu được lưu trữ, đánh chỉmục và truy xuất

 Giải thuật khai phá dữ liệu hiệu quả (efficiency) và có tính cogiãn (scalability) với dữ liệu được khai phá

 Công nghệ cơ sở dữ liệu

4.3/ Tri thức đạt được từ quá trình khai phá:

 Tri thức đạt được có thể có tính mô tả hay dự đoán tùy thuộc vào quá trìnhkhai phá cụ thể

 Mô tả (Descriptive): có khả năng đặc trưng hóa các đặc tính chungcủa dữ liệu được khai phá

 Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dựđoán

 Tri thức đạt được có thể có cấu trúc, bán cấu trúc hoặc phi cấu trúc

 Tri thức đạt được có thể được hoặc không được người dùng quan tâm Từ đósuy ra các độ đo đánh giá tri thức đạt được

 Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều

Trang 19

Hình 4: Tri thức đạt được từ quá trình khai phá.

Chương III> Luật kết hợp:

1/ Một số khái niệm cơ bản:

Kí hiệu I = {i1, i2, …, im} là tập các thuộc tính được gọi là các mục dữ liệu D

là cơ sở dữ liệu của tập các giao tác, mỗi giao tác T là một tập mục con của tập mục

I, Ti I Mỗi giao tác Ti có một định danh duy nhất gọi là TID (TransactionIdentification) X={i1, i2,…,ik} I được gọi là một tập mục hay một tập k-mụcnếu nó chứa k mục Một giao tác T được gọi là chứa tập mục X chỉ khi X  T Mỗigiao tác là một bộ <TID, I>, I là tập mục

Luật kết hợp là một mối liên hệ điều kiện giữa hai tập các hạng mục dữ liệu X

và Y theo dạng sau: Nếu X thì Y, và ký hiệu là X  Y Ta có luật kết hợp X  Y,

nếu X  I, Y  I và X  Y =  Chúng phụ thuộc vào 2 đại lượng cơ bản là độ hỗ

trợ (S) và độ tin cậy (C).

a) Độ hỗ trợ (Support): Độ hỗ trợ của một luật r = X Y là tỉ số phần trăm

của số giao tác trong D có chứa X Y Kí hiệu Supp(r).

Supp(r) thể hiện phạm vi ảnh hưởng của luật trên toàn bộ cơ sở dữ liệu.

Ngưỡng nhỏ nhất của độ hỗ trợ gọi là minsupp

Supp(r)= Card Card(X(D)Y)(%) 0  Supp(r)  1Với:

Card(X Y): tập các giao tác trên CSDL có chứa cả vế trái lẫn vế phải Card(D): tập tất cả các dòng trên CSDL.

Trang 20

b)Độ tin cậy (Confidence): Độ tin cậy của một luật r = X Y là tỉ số phần

trăm của số giao tác trong D chứa X Y với số giao tác trong D có chứa tập mục

X Kí hiệu Conf(r).

Conf(r) thể hiện tính chính xác, tính đúng đắn hay khả năng tin cậy của luật

trong phạm vi ảnh hưởng của luật (được xác định bởi Supp(r)) Ngưỡng nhỏ nhất

của độ tin cậy gọi là minconf

Conf(r) = (%)

) (

) (

X Card

Y X

c)Large ItemSet: Tập các hạng mục dữ liệu (ItemSet) có độ hỗ trợ (Supp)

lớn hơn hay bằng giá trị của ngưỡng nhỏ nhất (minsupp).

d)Small ItemSet : Tập các hạng mục dữ liệu (ItemSet) có độ hỗ trợ (Supp)

nhỏ hơn giá trị của ngưỡng nhỏ nhất (minsupp).

Tóm lại: Với L là một Large ItemSet, A là một tập con khác rỗng của L, nếu

tỉ lệ phần trăm giữa Support của L so với Support của A lớn hơn hay bằng độ tin

cậy nhỏ nhất (minconf) thì ta có luật kết hợp A  (L\A)

2/ Khai phá luật kết hợp:

Khai phá luật kết hợp (Association Rule Discovery): là kỹ thuật rất quan trọng

trong lĩnh vực khai phá dữ liệu Mục đích của việc khai phá luật kết hợp là tìm racác mẫu phổ biến, mối quan hệ, sự kết hợp hay mối tương quan giữa các đối tượngtrong khối lượng lớn dữ liệu

Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục…) mà xuất hiện

phổ biến trong 1 CSDL

2.1/ Tạo luật kết hợp:

Quá trình tạo luật kết hợp qua hai bước chính như sau:

Bước 1: Tìm các tập phổ biến: các tập các phần tử có độ support tối thiểu

 Mẹo Apriori: Tập con của tập phổ biến cũng là một tập phổ biến

o Ví dụ: nếu {AB} là một tập phổ biến thì cả {A} và {B} đều là

những tập phổ biến

Lặp việc tìm tập phổ biến với kích thước từ 1 đến k (tập có kích

Trang 21

Bước 2: Dùng các tập phổ biến để tạo các luật kết hợp Rakesh Agrawal,

1993

2.2/ Các tập phổ biến với mẹo Apriori:

Bước kết hợp: C k được tạo bằng cách kết L k-1 với chính nó

Bước rút gọn: Những tập kích thước (k-1) không phổ biến không thể là tập con

của tập phổ biến kích thước k

Ký hiệu:

_ Lk: Tập các k-mục phổ biến (large k-itemset) (tức tập các itemset cósupport tối thiểu và có lực lượng bằng k)

_ Mỗi phần tử của tập này có 2 trường: itemset và support-count

_ Ck: Tập các candidate k-itemset (tập các tập k-mục ứng cử viên) Mỗi phần

tử trong tập này cũng có 2 trường itemset và support-count

Thuật toán Apriori:

Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup

Output: L- tập mục phổ biến trong D

Ck=apriori-gen(Lk-1); //sinh ra tập ứng cử viên từ Lk-1

for (mỗi một giao dịch TD) do

begin

CT = subset(Ck, T); //lấy tập con của T là ứng cử viên trong Ck

for (mỗi một ứng cử viên c CT) do

c.count++; //tăng bộ đếm tần xuất 1 đơn vị

Ngày đăng: 10/04/2015, 00:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] GS.TSKH Hoàng Kiếm. Chuyên đề “Công nghệ tri thức và Ứng dụng” – Trường Đại học Công nghệ thông tin, Đại học quốc gia thành phố Hồ Chí Minh – 2012 Sách, tạp chí
Tiêu đề: Công nghệ tri thức và Ứng dụng
[2] PGS.TS Đỗ Phúc. Bài giảng môn Khai phá dữ liệu và kho dữ liệu – Trường Đại học Công nghệ thông tin, Đại học quốc gia thành phố Hồ Chí Minh – 2012 Khác
[3] PGS.TS Đỗ Phúc. Giáo trình Khai thác dữ liệu – Trường Đại học Công nghệ thông tin, Đại học quốc gia thành phố Hồ Chí Minh – 2006 Khác
[4] TS Võ Thị Ngọc Châu. Giáo trình điện tử môn Khai phá dữ liệu – Trường Đại Khác
[5] PGS.TS Hà Quang Thụy. Bài giảng môn Khai phá dữ liệu và kho dữ liệu – Trường Đại học Công nghệ, Đại học quốc gia Hà Nội – 2011 Khác
[6] ThS Nguyễn Trung Tuấn. Kỹ thuật phát hiện tri thức và khai phá dữ liệu, ứng dụng trong bài toán dự báo từ thông tin kinh tế &amp; xã hội – Tạp chí Công nghệ thông tin &amp; Truyền thông Khác
[7] Lê Minh Trí – Nguyễn Văn Sang. Tiểu luận môn Công nghệ tri thức và ứng dụng - Trường Đại học Công nghệ thông tin, Đại học quốc gia thành phố Hồ Chí Minh - 2012 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w