Một số phương phỏp Clustering

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 28)

k-Means: Giải thuật k-means[1] cú tham sốđầu vào là k và phõn hoạch tập n

đối tượng vào k cluster, sự tương tự cluster được đo bằng cỏch lấy trung bỡnh của cỏc đối tượng bờn trong một cluster và xem đú là trọng tõm của cluster. Giải thuật này hoạt động như sau: Trước tiờn, lựa chọn ngẫu nhiờn kđối tượng, mỗi đối tượng là một biểu diễn ban đầu cho trọng tõm của một cluster. Mỗi đối tượng cũn lại được gỏn vào cluster mà gần giống với nú nhất dựa trờn khoảng cỏch giữa đối tượng đú và trọng tõm của cluster. Sau đú tớnh toỏn lại trọng tõm cho mỗi cluster. Quỏ trỡnh này lặp lại cho tới khi hàm tiờu chuẩn hội tụ. Thụng thường tiờu chuẩn bỡnh phương lỗi (square-error criterion) được sử dụng:

với E là tổng bỡnh phương lỗi của tất cảđối tượng trong tập dữ liệu; p là điểm trong khụng gian mụ tả một đối tượng; mi là trọng tõm của cluster Ci (cả pmi là đa chiều). Giải thuật này được tổng kết lại như sau:

Hỡnh sau minh họa giải thuật k-means:

Hỡnh 1.7: Clustering dựa trờn giải thuật k-means

Phương phỏp này tương đối bền vững và hiệu quả trong xử lý tập dữ liệu lớn bởi vỡ

độ phức tạp tớnh toỏn của giải thuật là O(nkt) với n là tổng số đối tượng, k là số

clustert là số lần lặp. Thụng thường k << nt << n . Giải thuật này thường kết thỳc khi đạt tối ưu húa cục bộ. Tuy nhiờn, phương phỏp này chỉ ỏp dụng được khi giỏ trị trung bỡnh (trọng tõm) của một cluster được định nghĩa; điều này khú cú thể ỏp dụng được trong một sốứng dụng khi dữ liệu cú dạng phức tạp. Phương phỏp này chỉ phự hợp đối với việc phỏt hiện cỏc cluster lồi.

Cú một vài mở rộng cho giải thuật này, chẳng hạn giải thuật EM

(Expectation-Maximization). Trong khi k-means mỗi đối tượng được gỏn cho một cluster thỡ với phương phỏp EM mỗi đối tượng được gỏn cho mỗi cluster tương ứng

với một biểu diễn trọng số xỏc suất của cỏc thành viờn của nú. Núi cỏch khỏc, khụng cú vựng biờn rừ ràng giữa cỏc cluster. Phần tiếp theo sẽ trỡnh bày về giải thuật này.

Expectation-Maximization: Giải thuật này[1] thuộc về nhúm cỏc phương phỏp clustering dựa trờn mụ hỡnh, cố gắng tối ưu húa sự phụ hợp giữa dữ liệu ban

đầu với một vài mụ hỡnh toỏn học. Cỏc phương phỏp này thường giả thiết rằng dữ

liệu được sinh ra dựa trờn sự pha trộn của cỏc phõn bố xỏc suất. EM là một sự mở

rộng của phương phỏp k-means.

Trong thực tế, mỗi cluster cú thể được biểu diễn một cỏch toỏn học bởi một tham số phõn bố xỏc suất. Tồn bộ dữ liệu là sự hũa trộn của cỏc phõn bố này, trong

đú bản dữ liệu sử dụng một mụ hỡnh mật độ hỗn hợp (mixture density model) hữu hạn của k phõn bố xỏc suất trong đú mỗi phõn bố biểu diễn cho mỗi cluster. Vấn đề ở đõy là xỏc định cỏc tham số của cỏc phõn bố xỏc suất phự hợp nhất cho dữ liệu. Hỡnh vẽ sau minh họa một vớ dụđơn giản về mụ hỡnh mật độ hỗn hợp cú giới hạn; ở đõy cú hai cluster trong đú mỗi cluster tũn theo phõn bố chuẩn hoặc phõn bố

Gaussian với cỏc giỏ trị trung bỡnh và độ lệch tiờu chuẩn.

EM bắt đầu bằng việc khởi tạo cỏc ước lượng hay phỏng đoỏn về cỏc tham số của mụ hỡnh hỗn hợp (mixture model), sau đú lặp lại quỏ trỡnh gỏn giỏ trị cho cỏc

đối tượng dựa vào mật độ hỗn hợp được tạo ra bởi vector tham số húa. Cỏc đối tượng đĩ được tớnh giỏ trị sau đú được sử dụng để cập nhật lại cỏc tham số phỏng

đoỏn. Mỗi đối tượng được gỏn cho một xỏc suất mà xỏc suất này sở hữu một tập cỏc giỏ trị thuộc tớnh nào đú và đối tượng thuộc về một cluster nào đú. Giải thuật này

được mụ tả như sau:

1. Tạo ra một phỏng đoỏn ban đầu cho vector tham số húa: Chọn ra một cỏch ngẫu nhiờn k đối tượng để biểu diễn giỏ trị trung bỡnh của cluster hoặc tõm của cluster cũng như phỏng đoỏn cho cỏc tham số thờm vào. 2. Lặp lại 2 bước E (Expectation) và M (Maximization):

a. Bước E: gỏn mỗi đối tượng xi vào cluster Ck với xỏc suất:

Trong đú p(xi|Ck) = N(mk, Ek(xi)) dựa trờn phõn bố chuẩn (chẳng hạn Gaussian) xung quanh giỏ trị trung bỡnh mk, với Expectation Ek. Núi cỏch khỏc, ở bước này thỡ với mỗi cluster sẽ tớnh toỏn lại giỏ trị xỏc suất cho cỏc thành viờn của cluster. Cỏc xỏc sũt này là thành viờn cluster được mong đợi cho đối tượng xi.

b. Bước M: Sử dụng xỏc sũt phỏng đoỏn ở trờn để tớnh toỏn lại cỏc tham số của mụ hỡnh, chẳng hạn:

1.5. Cỏc ứng dụng và xu hướng trong khai phỏ dữ liệu

Nhiều cụng cụ khai phỏ dữ liệu đĩ được phỏt triển cho cỏc ứng dụng lĩnh vực cụ thể, bao gồm tài chớnh, cụng nghiệp bỏn lẻ, viễn thụng, tin sinh học, phỏt hiện xõm phạm, cỏc ngành khoa học, kỹ thuật khỏc và phõn tớch dữ liệu chớnh phủ. Hoạt

động đú kết hợp tri thức trong lĩnh vực cụ thể với cỏc kỹ thuật phõn tớch dữ liệu và

đưa ra giải phỏp khai phỏ dữ liệu cho nhiệm vụ cụ thể.

Cú nhiều hệ thống khai phỏ dữ liệu và nguyờn mẫu nghiờn cứu để lựa chọn. Khi chọn một sản phẩm khai phỏ dữ liệu phự hợp cho một nhiệm vụ, cần phải cõn nhắc cỏc đặc điểm của cỏc hệ thống khai phỏ dữ liệu từ quan điểm đa chiều. Những cõn nhắc này bao gồm loại dữ liệu, vấn đề của hệ thống, nguồn dữ liệu, cỏc chức năng và phương phỏp khai phỏ dữ liệu, việc liờn kết chặt chẽ hệ thống khai phỏ dữ

liệu bằng cơ sở dữ liệu hoặc hệ thống kho dữ liệu, khả năng cú thể thay đổi về quy mụ, cỏc cụng cụ trực quan húa, ngụn ngữ truy vấn khai phỏ dữ liệu và cỏc giao diện người dựng đồ họa.

Cỏc nhà nghiờn cứu đĩ và đang nỗ lực xõy dựng những nền tảng lý thuyết cho khai phỏ dữ liệu. Một vài để xuất thỳ vị đĩ xuất hiện, dựa trờn rỳt gọn dữ liệu, nộn dữ liệu, khỏm phỏ dạng mẫu, lý thuyết xỏc suất, lý thuyết vi kinh tế và cơ sở dữ

liệu quy nạp.

Khai phỏ dữ liệu trực quan kết hợp khai phỏ dữ liệu và trực quan húa dữ liệu

để khỏm phỏ cỏc tri thức tiềm ẩn và hữu ớch từ cỏc tập hợp dữ liệu lớn. Cỏc biểu mẫu khai phỏ dữ liệu trực quan bao gồm trực quan húa dữ liệu, trực quan húa kết quả khai phỏ dữ liệu, trực quan húa quỏ trỡnh khai phỏ dữ liệu khai phỏ dữ liệu trực quan tương tỏc. Khai thỏc phỏ liệu õm thanh sử dụng cỏc tớn hiệu õm thanh để

chỉ ra cỏc mẫu dữ liệu hoặc cỏc đặc tớnh của kết quả khai phỏ dữ liệu.

Một vài phương phỏp thống kờ cú từ lõu đĩ được đề xuất cho phõn tớch dữ

liệu, chẳng hạn như hồi qui, mụ hỡnh tuyến tớnh tổng quỏt, phõn tớch phương sai, mụ hỡnh hiệu ứng hỗn hợp, phõn tớch hệ số, phõn tớch biệt số, phõn tớch chuỗi thời gian, phõn tớch biến cố và kiểm soỏt chất lượng. Việc đề cập đến tất cả cỏc phương phỏp phõn tớch dữ liệu thống kờ nằm ngồi phạm vi mà ta đang xột ởđõy.

Cỏc hệ thống giới thiệu cộng tỏc đưa ra những lời giới thiệu sản phẩm cỏ nhõn húa dựa trờn ý kiến của những khỏch hàng khỏc. Cỏc hệ thống này cú thể sử

dụng kỹ thuật khai phỏ dữ liệu hoặc thống kờ để tỡm kiếm những điểm giống nhau trong số cỏc ưu tiờn của khỏch hàng.

Khai phỏ dữ liệu thường gặp là khai phỏ dữ liệu trong nhiều lĩnh vực cuộc sống hàng ngày của chỳng ta. Việc này cú thể ảnh hưởng đến cỏch chỳng ta mua sắm, làm việc, tỡm kiếm thụng tin và sử dụng mỏy tớnh cũng như thời gian rảnh rối, sức khỏe và hạnh phỳc của chỳng ta. Trong khai phỏ dữ liệu vụ hỡnh, cỏc phần mềm "thụng minh", chẳng hạn như cỏc bộ mỏy tỡm kiếm Web, cỏc dịch vụ Web thớch ứng với khỏch hàng, trỡnh quản lý e-mail, vv…kết hợp khai phỏ dữ liệu thành cỏc bộ

phận chức năng của nú, thường khụng được người dựng biết đến.

Một mối lo ngại lớn về mặt xĩ hội của khai phỏ dữ liệu đú là vấn đềriờng tư và bảo mật dữ liệu, đặc biệt là khi lượng dữ liệu thu thập được về cỏc cỏ nhõn đang tiếp tục gia tăng. Cỏc quy tắc thụng tin cụng bằng đĩ được xỏc lập để bảo vệ sự

riờng tư và dữ liệu đồng thời bao quỏt cỏc lĩnh vực liờn quan đến việc thu thập và sử

dụng dữ liệu cỏ nhõn. Khai phỏ dữ liệu để chống khủng bố cú thể mang lại lợi ớch cho an ninh quốc gia và cứu sống nhiều người nhưng lại làm nảy sinh thờm cỏc mối lo ngại về sự riờng tư do khả năng cú thể tiếp cận dữ liệu cỏ nhõn. Cỏc nỗ lực nhằm

đảm bảo sự riờng tư và bảo mật dữ liệu bao gồm phỏt triển phương phỏp khai phỏ dữ liệu cú thể bảo vệ sự riờng tư (phương phỏp này nhằm thu được cỏc kết quả khai phỏ dữ liệu hợp phỏp mà khụng tỡm hiểu cỏc giỏ trị dữ liệu tiềm ẩn) và cỏc kỹ thuật tăng cường độ bảo mật (chẳng hạn như mĩ húa).

Cỏc xu hướng trong khai phỏ dữ liệu bao gồm tiếp tục nỗ lực nhằm khỏm phỏ cỏc lĩnh vực ứng dụng mới, cải tiến cỏc phương phỏp mở rộng quy mụ và tương tỏc (bao gồm khai phỏ dựa trờn điều kiện ràng buộc), kết hợp khai phỏ dữ liệu với hệ

thống kho dữ liệu và cơ sở dữ liệu, chuẩn húa ngụn ngữ khai phỏ dữ liệu, phương phỏp trực quan húa và những phương phỏp mới để xử lý cỏc loại dữ liệu phức tạp. Cỏc xu hướng khỏc bao gồm khai phỏ dữ liệu sinh học, bọ phần mềm khai phỏ, khai

phỏ Web, khai phỏ phõn bố và thời gian thực, khai phỏ đồ thị, phõn tớch mạng xĩ hội, khai phỏ dữ liệu đa quan hệ và đa cơ sở dữ liệu, bảo vệ sự riờng tư của dữ liệu và bảo mật dữ liệu.

Kết chương: Chương này vừa trỡnh bày cỏc khỏi niệm cơ bản, một số bài toỏn, kỹ

thuật và phương phỏp thường dựng trong khai phỏ dữ liệu, làm nền tảng cho cỏc phương phỏp khai phỏ dữ liệu văn bản sẽ được đề cập đến trong cỏc chương tiếp theo. Đõy là phần trỡnh bày chung, mang tớnh tổng quan nhưng tương đối quan trọng. Chương tiếp theo sẽ trỡnh bày về lý thuyết tập thụ và cỏc ứng dụng của nú trong khai phỏ dữ liờu.

Chương 2

Tp thụ và ng dng

2.1. Lý thuyết tập thụ

Lý thuyết tập thụ[2][3] được đưa ra bởi Z. Pawlak vào năm 1980, đõy là một hướng tiếp cận toỏn học mới cho bài toỏn tri thức chưa hồn chỉnh – imperfect knowledge; bài toỏn này đĩ được tỡm cỏch giải quyết trong một thời gian dài bởi cỏc nhà khoa học. Gần đõy lý thuyết này đĩ trở thành một hướng nghiờn cứu quan trọng trong khoa học mỏy tớnh, đặc biệt là trong lĩnh vực trớ tuệ nhõn tạo. Cú rất nhiều hướng tiếp cận khỏc nhau cho bài toỏn “làm thế nào để hiểu và vận dụng được cỏc tri thức chưa hồn chỉnh”, một trong số những hướng thành cụng nhất phải kể đến lý thuyết tập mờ (fuzzy sets theory) được đưa ra bởi Lotfi Zadeh. Lý thuyết tập thụ (rough sets theory) hiện tại vẫn là một hướng tiếp cận khỏc cho bài toỏn kể trờn, lý thuyết này thu hỳt được sự quan tõm nghiờn cứu của rất nhiều nhà khoa học trờn tồn thế giới trong việc phỏt triển và ứng dụng nú. Lý thuyết tập thụ phủ lờn nhiều lý thuyết khỏc, tuy nhiờn ởđõy chỳng ta vẫn đề cập đến sự liờn hệ giữa chỳng; mặc dầu vậy, lý thuyết tập thụ cú thểđược xem như là một ngành độc lập của riờng nú.

Lý thuyết tập thụ cú nhiều ứng dụng to lớn, nú dường như là một nền tảng quan trọng trong trớ tuệ nhõn tạo và cỏc ngành khoa học khỏc liờn quan đến nhận thức, đặc biệt là trong lĩnh vực học mỏy (machine learning), thu nhận tri thức (knowledge acquisition) , phõn tớch quyết định (decision analysis), phỏt hiện tri thức từ cơ sở dữ liệu (knowledge discovery from databases), hệ chuyờn gia (expert

Nội dung chớnh sẽ trỡnh bày:

Mụ hỡnh toỏn học và một số khỏi niệm trong lý thuyết tập thụ.

Một số ứng dụng của lý thuyết tập thụ.

systems), lập luận dựa trờn quy nạp (inductive reasoning) và phỏt hiện mẫu (pattern recognition)…

Ưu điểm chớnh của lý thuyết tập thụ trong phõn tớch dữ liệu là nú khụng cần bất cứ thụng tin khơi mào hay thụng tin đớnh kốm nào về dữ liệu. Hướng tiếp cận tập thụ cú thểđem lại những kết quả sau:

- đề xuất cỏc giải thuật hiệu quả cho việc tỡm kiếm cỏc mẫu ẩn chứa trong dữ liệu (hidden patterns)

- đuyết định tập tối thiểu cho dữ liệu (rỳt gọn dữ liệu – data reduction) - đỏnh giỏ sự quan trọng của dữ liệu

- tạo ra cỏc tập luật quyết định (decision rules) từ dữ liệu - mụ hỡnh hỡnh thức húa dễ hiểu

- dễ dàng diễn dĩi cỏc kết quả thu nhận được - …

Cỏc phần tiếp theo sẽ trỡnh bày cỏc khớa cạnh chi tiết trong lý thuyết tập thụ.

2.1.1. H thụng tin

Hệ thụng tin là một tập dữ liệu được mụ tả dưới dạng một bảng trong đú mỗi dũng thể hiện cho một trường hợp, một sự kiện, một bệnh nhõn hay đơn giản là một

đối tượng. Mỗi cột của bảng thể hiện một thuộc tớnh của đối tượng, thuộc tớnh này

được sử dụng để làm độ đo cho đối tượng và được cung cấp bởi cỏc chuyờn gia hoặc người dựng. Một bảng cú tớnh chất như vậy được gọi là một hệ thụng tin. Một cỏch hỡnh thức hơn, hệ thụng tin là một cặp A = (U, A), trong đú U là tập hữu hạn cỏc đối tượng, khỏc rỗng và được gọi là tập vũ trụ. A là tập hữu hạn cỏc thuộc tớnh, khỏc rỗng mà: a: U Va với mọi aA. Tập Vađược gọi là tập giỏ trị của a.

Vớ dụ: Một vớ dụ đơn giản về hệ thụng tin được chỉ ra trong bảng 1.1, ởđõy ta cú 7

Bảng 2.1: vớ dụ về hệ thụng tin

Ta cú thể dễ dàng nhận thấy rằng cỏc cặp đối tượng x3, x4x5, x7 cú giỏ trị bằng nhau tại tất cả cỏc thuộc tớnh và ta núi rằng cỏc đối tượng này khụng phõn biệt từng

đụi đối với tập thuộc tớnh đĩ cho.

Trong nhiều ứng dụng, tập vũ trụđược phõn chia thành cỏc tập đối tượng con bởi một tập cỏc thuộc tớnh phõn biệt được gọi là tập thuộc tớnh quyết định, như vậy tập vũ trụ đĩ được phõn lớp bởi thuộc tớnh quyết định. Hệ thụng tin trong trường hợp này được gọi là một hệ quyết định, đú là một hệ thụng tin cú dạng A = (U, CD) trong đú A = CD, C và D được gọi là tập thuộc tớnh điều kiện và tập thuộc tớnh quyết định của hệ thụng tin. Một vớ dụđơn giản về bảng quyết định cú thể thấy

ở bảng sau, bảng này cũng cú 7 trường hợp như bảng 1 ở trờn nhưng cú thờm thuộc tớnh quyết định {Walk} và nhận hai giỏ trị là “Yes” hoặc “No”.

Ở đõy ta lại thấy rằng cỏc cặp đối tượng x3, x4x5, x7 vẫn cú giỏ trị như nhau tại hai thuộc tớnh điều kiện nhưng cặp thứ nhất cú giỏ trị tại thuộc tớnh quyết định là khỏc nhau trong khi cặp thứ hai lại bằng nhau tại thuộc tớnh quyết định.

2.1.2. Quan h bt kh phõn

Một hệ quyết định (chẳng hạn đú là một bảng quyết định) mụ tả tồn bộ tri thức của mụ hỡnh, bảng quyết định này cú thể được rỳt gọn lại do ớt nhất tồn tại hai khả năng dư thừa thụng tin sau đõy: thứ nhất, cỏc đối tượng giống nhau hoặc khụng thể phõn biệt được với nhau cú thể được lặp đi lặp lại nhiều lần; thứ hai, một số

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 28)

Tải bản đầy đủ (PDF)

(118 trang)