1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm văn bản tiếng việt bằng phương pháp k means

40 1,1K 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 757 KB

Nội dung

Phân cụm văn bản tiếng việt bằng phương pháp k means

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚNMÔN: MÁY HỌC

Trang 2

LỜI MỞ ĐẦU

Internet được phát triển nhanh chóng và sinh ra một khối lượng khổng lồcác dữ liệu dạng siêu văn bản (dữliệu Web), đã trở thành một kênh quantrọng về mọi thông tin của đời sống Chính vì vậy, lĩnh vực khai phá Web cótốc độ phát triển vượt bậc, nhận được nhiều sự quan tâm của các nhà khoahọc và các nhóm nghiên cứu Một trong những bài toán quan trọng trong lĩnhvực khai phá Web chính là phân cụm Web Số lượng các trang Web là rấtlớn và luôn luôn thay đổi, mỗi tài liệu không chỉ liên quan đến một khía cạnh

mà còn đề cập đến nhiều khía cạnh khác nhau dẫn đến sự trùng lặp thông tingiữa các tài liệu Xuất phát từ những đặc điểm này mà phân cụm Web chỉnên thực hiện trên các tài liệu Web của một truy vấn trả về từ máy tìm kiếm.Sau đó kết quả sẽ được tổ chức lại cho người dùng theo các cụm

Trang 3

PHẦN 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1 Phân cụm dữ liệu

1.1 Định nghĩa phân cụm dữ liệu

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tựnhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng mộtcụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ khôngtương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không cóthầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏiphải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phâncụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu làhọc bằng ví dụ… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng nhưmột bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại

và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm

1.2 Một số ví dụ về phân cụm dữ liệu

1.2.1 Phân cụm dữ liệu phục vụ cho biểu diễn dữ liệu gene

Trang 4

Phân cụm là một trong những phân tích được sử dụng thường xuyênnhất trong biểu diễn dữ liệu gene (Yeung et al, 2003; Eisen at al, 1998) Dữ

liệu biểu diễn gene là một tập hợp các phép đo được lấy từ DNA microarray

(còn gọi là DNA chip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó

có gắn các đoạn DNA thành các hàng siêu nhỏ Các nhà nghiên cứu sử dụngcác con chip như vậy để sàng lọc các mẫu sinh học nhằm kiểm tra sự có mặthàng loạt trình tự cùng một lúc Các đoạn DNA gắn trên chip được gọi làprobe (mẫu dò)

1.2.2 Phân cụm dữ liệu phục trong sức khỏe tâm lý

Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, baogồm cả việc thúc đẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sócsức khỏe và công tác phòng chống bệnh tật và người khuyết tật Trong sựphát triển hệ thống chăm sóc sức khỏe, phân cụm dữ liệu được sử dụng đểxác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụthể (Hodges và Wotring, 2000) Trong thúc đẩy y tế, nhóm phân tích được sửdụng để lựa chọn nhắm mục tiêu vào nhóm sẽ có khả năng đem lại lợi íchcho sức khỏe cụ thể từ các chiến dịch quảng bá và tạo điều kiện thuận lợi cho

sự phát triển của quảng cáo Ngoài ra, phân cụm dữ liệu được sử dụng để xácđịnh các nhóm dân cư bị rủi ro do phát triển y tế và các điều kiện nhữngngười có nguy cơ nghèo

1.2.3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường

Trang 5

Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để phânđoạn thị trường và xác định mục tiêu thị truowngd (Chrisopper, 1969;Saunders, 1980; Frank and Green, 1968) Trong phân đoạn thị trường, phâncụm dữ liệu thường được dùng để phân chia thị trường thành những cụmmang ý nghĩa, chẳng hạn như chia ra đối tượng nam giới từ 21-30 tuổi vànam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường k có khuynhhướng mua các sản phẩm mới

1.2.4 Phân cụm dữ liệu đối với hoạt động phân đoạn ảnh

Phân đoạn ảnh là việc phân tích mức xám hay mầu của ảnh thành cáclát đồng nhất (Comaniciu and Meer, 2002) Trong phân đoạn ảnh, phân cụm

dữ liệu thường được sử dụng để phát hiện biên của đối tượng trong ảnh

Phân cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu là quátrình khám phá và phân tích một khối lượng lớn dữ liệu để lấy được cácthông tin hữu ích (Berry and Linoff, 2000) Phân cụm dữ liệu cũng là mộtvấn đề cơ bản trong nhận dạng mẫu (pattern recognition)

Nhìn chung, thông tin hữu dụng có thể được khám phá từ một khốilượng lớn dữ liệu thông qua phương tiện tự động hay bán tự động (Berry andLinoff, 2000) Trong khai phá dữ liệu gián tiếp, không có biến nào được chọn

ra như một biến đích, và mục tiêu là để khám phá ra một vài mối quan hệgiữa tất cả các biến Trong khi đó đối với khai phá dữ liệu gián tiếp một vàibiến lại được chọn ra như các biến đích Phân cụm dữ liệu là khai phá dữ liệugián tiếp, bởi vì trong khai phá dữ liệu, ta không đảm bảo chắc chắn chínhxác cụm dữ liệu mà chúng ta đang tìm kiếm, đóng vai trò gì trong việc hìnhthành các cụm dữ liệu đó, và nó làm như thế nào

Trang 6

Vấn đề phân cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dùchưa có định nghĩa đồng bộ về phân cụm dữ liệu và có thể sẽ không bao giờ

là một và đi đến thống nhất (Estivill-Castro, 2002; Dubes, 1987; Fraley anhRaftery,1998) Nói một cách đại khái là: Phâm cụm dữ liệu, có nghĩa là tacho một tập dữ liệu và một phương pháp tương tự, chúng ta nhóm dữ liệu lạichẳng hạn như điểm dữ liệu trong cùng một nhóm giống nhau và điểm dữliệu trong các nhóm khác nhau về sự không đồng dạng Rõ ràng là vấn đềnày được bắt gặp trong nhiều ứng dụng, chẳng hạn như khai phá văn bản,biểu diễn gen, phân loại khách hàng, xử lý ảnh…

2 Một số kiểu dữ liệu

Thuật toán phân cụm dữ liệu có rất nhiều liên kết với các loại dữ liệu

Vì vậy, sự hiểu biết về quy mô, bình thường hóa, và gần nhau là rất quantrọng trong việc giải thích các kết quả của thuật toán phân cụm dữ liệu Kiểu

dữ liệu nói đến mữ độ lượng tử hóa trong dữ liệu (Jain và Dubes, 1988;Anderberg, 1973) – một thuộc tính duy nhất có thể được gõ như nhị phân,rời rạc, hoặc liên tục Thuộc tính nhị phân có chính xác hai giá trị, như làđúng hoặc sai Thuộc tính rời rạc có một số hữu hạn các giá trị có thể, vì thếcác loại nhị phân là một trường hợp đặc biệt của các loại rời rạc

Dữ liệu quy mô, mà chỉ ra tầm quan trọng tương đối của các con số,cũng là một vấn đề quan trọng trong phân cụm dữ liệu Vậy liệu có thểđược chia thành quy mô quy định lượng và quy mô định tính Quy môđịnh lượng bao gồm quy mô danh nghĩa và quy mô giới hạn Quy mô địnhtính bao gồm quy mô khoảng và quy mô khoảng tỷ lệ Các kiểu dữ liệu sẽđược xem xét trong phần này

Trang 7

Thuộc tính Categorical cũng được gọi là thuộc tính danh nghĩa, thuộc tínhnày đơn giản là sử dụng như tên, chẳng hạn như các thương hiệu xe và têncủa các chi nhánh ngân hàng Chúng ta xem xét các dữ liệu tập hợp vớimột số hữu hạn các điểm dữ liệu, một thuộc tính trên danh nghĩa của cácđiểm dữ liệu, một thuộc tính trên danh nghĩa của các điểm dữ liệu trongtập dữ liệu có thể chỉ có một số hữu hạn các giá trị; như vậy, các loại danhnghĩa cũng là một trường hợp đặc biệt của kiểu rời rạc

Hình: Biểu đồ quy mô dữ liệu

Trang 10

3 Phép biến đổi và chuẩn hóa dữ liệu

Trong nhiều ứng dụng của phân cụm dữ liệu, dữ liệu thô, hoặc đo đạc thực

tế, không được sử dụng trực tiếp, trừ khi mọt mô hình xác suất cho các thế

hệ khuôn mẫu có sẵn (Jain và Dubes, 1988) Việc chuẩn bị cho việc phân

Trang 11

cụm dữ liệu yêu cầu một só loại chuyển đổi, chẳng hạn như biến đổi vàchuẩn hóa dữ liệu

3.1 Chuẩn hóa dữ liệu

Chuẩn hóa làm cho dữ liệu giảm kích thước đi Nó có ích để xác định tiêu chuẩn hóa chỉ số Sau chuẩn hóa, tất cả các kiến thức về vị trí và quy mô của các dữ liệu gốc có thể bị mất Nó là cần thiết để chuẩn hóa các biến trong trường hợp các biện pháp không giống nhau, chẳng hạn như khoảng cách Euclide, là nhạy cảm với những khác biệt trong độ lớn hoặc quy mô của các biến đầu vào (Milligan và Cooper, 1988) Các

phương pháp tiếp cận các chuẩn hóa các biến bản chất của hai loại Chuẩnhóa toàn cục và chuẩn hóa trong cụm

Chuẩn hóa toàn cục làm chuẩn các biến trên tất cả các yếu tốtrong các tập dữ liệu Trong vòng-cụm tiêu chuẩn hóa dùng để chỉ tiêuchuẩn hóa xảy ra trong các cụm biến mỗi ngày Một số hình thức tiêuchuẩn hóa có thể được sủ dụng trong các chuẩn hóa toàn cục và chuẩn hóatrong phạm vi rất tốt, nhưng một số hình thức chuẩn hóa chỉ có thể được

sử dụng trong chuẩn hóa toàn cục

Không thể trực tiếp chuẩn hóa các biến trong các cụm trongphân cụm, bởi vì các cụm không được biết trước khi chuẩn hóa Để khắcphục khó khăn này, các phương pháp phải được thực hiện Tổng thể vàKlett (1972) đề xuất một cách tiếp cận lặp rằng các cụm thu được đầu tiêndựa trên số ước lượng tổng thể và sau đó được sử dụng các cụm để giúp

Trang 12

xác định các biến bên trong nhóm chênh lệch đối với chuẩn hóa trong mộtphân cụm thứ hai

3.2 Biến đổi dữ liệu

Biến đổi dữ liệu có gì đó để làm gì với dữ liệu chuẩn hóa,nhưng nó là phức tạp hơn so với chuẩn hóa dữ liệu Chuẩn hóa dữ liệu tậptrung vào các biến, nhưng biến đổi dữ liệu tập trung vào các dữ liệu toàn

bộ thiết lập Theo chuẩn hóa dữ liệu như vậy, có thể được xem như là mộttrường hợp đặc biệt của biến đổi dữ liệu i

Trang 13

PHẦN 2 PHÂN CỤM VĂN BẢN TIẾNG VIỆT

2.1 Đặc trưng của tiếng Việt và tách từ trong tiếng việt

Có thể nói, khai phá web là giao thoa của khai phá dữ liệu, xử lý ngônngữ tự nhiên và Word- Wide- Web Vì vậy để có thể làm việc được với cáctài liệu web tiếng Việt cần phải tìm hiểu vềcác đặc trưng của tiếng Việt vàviệc tách từ tiếng Việt

2.1.1 Đặc trưng của tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) đượcphát âm tách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể

Trang 14

hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữpháp Dưới đây trình bàymột số đặc điểm của tiếng Việt theo các tác giả ởTrung tâm ngôn ngữ họcViệt Nam đã trình bày Error! Reference source not found

a Đặc điểm ngữ âm

Tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng", về mặt ngữ âm, mỗitiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối,tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị cónghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc Khi tạo câu,tạo lời, người Việt rất chú ý đến sựhài hoà về ngữ âm, đến nhạc điệu của câuvăn

Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng.Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuầnViệt hay vay mượn từcác ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ nhưtiếp thị, karaoke, thư điện tử (e-mail), thư thoại(voice mail), phiênbản(version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v

Trang 15

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợpngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn như chômchỉa, chỏng chơ, đỏng đa đỏng đảnh, thơthẩn, lúng lá lúng liếng, v.v

Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âmtiết, một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới mộtcách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phongphú về số lượng, vừa đa dạng trong hoạt động Cùng một sự vật, hiện tượng,một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phongcách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật.Hiện nay, do sự phát triển vượt bậc của khoa học- kĩ thuật, đặc biệt là côngnghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn

c Đặc điểm ngữ pháp

Từ của tiếng Việt không biến đổi hình thái Đặc điểm này sẽ chi phối cácđặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như ngữ, câu,tiếng Việt rất coi trọng phương thức trật tự từ và hư từ

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thịcác quan hệ cú pháp Trong tiếng Việt khi nói “Anh ta lại đến” là khác với

“Lại đến anh ta” Khi các từ cùng loại kết hợp với nhau theo quan hệ chínhphụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ Nhờ trậttựkết hợp của từ mà "củcải" khác với "cải củ", "tình cảm" khác với "cảmtình" Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kếtcấu câu tiếng Việt

Trang 16

Phương thức hư từcũng là phương thức ngữ pháp chủ yếu của tiếng Việt.Nhờ Hư từ mà tổhợp “anh của em” khác với tổ hợp “anh và em”, “anh vìem” Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng cónội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm.

Ví dụ, so sánh các câu sau đây:

- Ông ấy không hút thuốc

- Thuốc, ông ấy không hút

- Thuốc, ông ấy cũng không hút

Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu.Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tốtrong câu, nhờ đó nhằm đưa ra nội dung muốn thông báo Trên văn bản,ngữ điệu thường được biểu hiện bằngdấu câu Sự khác nhau trong nộidung thông báo được nhận biệt khi so sánh hai câu sau:

- Đêm hôm qua, cầu gãy

- Đêm hôm, qua cầu gãy

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dungđược phần nào bản sắc và tiềm năng của tiếng Việt

2.1.2 Tách từ tiếng Việt

Một số đặc điểm của từ tiếng Việt:

- Là đơn vị có ranh giới trùng với hình vị và âm tiết

- Không có sự biến đổi hình thái trong quá trình sửdụng

Trang 17

- Có tính định hình hoàn chỉnh

- Có thể chia từ tiếng việt thành hai loại: từ đơn và từ phức Chính từ những đặc điểm này mà tách từ là một khó khăn chínhtrong việc xử lý các văn bản tiếng Việt Mặc dù được viết bằng các ký tự

La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngônngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có cácđiểm khác biệt về phonetic, văn phạm và ngữnghĩa so với tiếng Anh Do

đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiêncứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu khôngxây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt.Dưới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh:

Đặc điểm Tiếng Việt Tiếng Anh

Đơn vị cơ bản Tiếng Từ

Tiền tố/ Hậu tố Không có

Từ loai Not unanimous Được định nghĩa rõ

Ranh giới từ Tổhợp có nghĩa dựa vào

ngữcảnh của các tiếng

Khoảng trắng hoặc dấu câu

Bảng : So sánh một số đặc điểm của tiếng Việt và tiếng Anh

Các hướng tiếp cận dựa trên “từ”: được chia thành 3 nhóm: dựa vàothống kê, dựa vào từ điển và nhóm lai, nhằm tách từ trọn vẹn trong câu.Các giải pháp dựa theo hướng tiếp cận vào thống kê cần phải dựa vào

Trang 18

thông tin thống kê như term, từ hay tần số ký tự hay xác suất cùng xuấthiện trong một tập dữ liệu cơ sở Do đó, tính hiệu quả của các giải phápnày chủ yếu dựa vào dữ liệu huấn luyện cụ thể được sử dụng Tronghướng tiếp cận dựa vào từ điển, các đoạn văn bản được đối sánh dựa vào

từ điển Việc xây dựng từ điển các từ và ngữ pháp tiếng việt hoàn chỉnh làkhông khả thi Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tậndụng ưu điểm của các giải pháp Các hướng tiếp cận để phân loại văn bảntiếng việt dựa vào từ chỉ khả thi khi có một bộ từ vựng tốt

Hướng tiếp cận dựa trên ký tự: có thể chia làm hai nhóm uni-gram

và n-gram Các phương pháp này tuy đơn giản nhưng đã đem lại kết quảkhả thi

2.2 Một số nghiên cứu về phân cụm tiếng Việt

Cho đến nay đã có khá nhiều công trình nghiên cứu về phân cụmtrong tiếng Việt và đều đạt được những kết quả khả quan Dưới đây, sẽ là

ba nghiên cứu về phân cụm trong tiếng Việt là phân cụm từ tiếng Việtbằng phương pháp học máy cấu trúc, đánh giá chất lượng phân cụm trongmáy tìm kiếm tiếng Việt, gom cụm đồ thị và ứng dụng vào việc trích rútnội dung chính của khối thông điệp trên diễn đàn thảo luận

2.2.1 Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc

Nghiên cứu về phân cụm từ tiếng Việt là khá mới mẻ đối với bàitoán tiếng Việt Bài toán phân cụm từ tiếng Việt được phát biểu như sau:gọi X là câu đầu vào tiếng Việt bao gồm một dãy các từ tố ký hiệuX=(X1, X2,…, Xn) Cần xác định Y=(Y1, Y2, , Yn) là một dãy các

Trang 19

nhãn cụm từ (cụm danh từ, cụm động từ) Bài toán được quy về học đoánnhận dãy (có thể được thực hiện qua việc sử dụng các mô hình học máy

…) Quy trình học được thực hiện bằng cách gán nhãn câu mới (khôngthuộc tập huấn luyện) Để thực hiện việc gán nhãn cụm cho câu tiếngViệt, tác giả sử dụng hai mô hình học khá thong dụng bao gồm:Conditional Random Fields (CRFS) và Online Learing Cả hai phươngpháp đối với bài toán này đều dựa trên giả thuyết các từ tố trong câuX=(X1, X2, …, Xn) tuân theo quan hệ của chuỗi Markov

2.2.2 Đánh gía chất lượng phân cụm trong máy tìm kiếm tiếng Việt

Nhóm tác giả nghiên cứu về các phương pháp đánh giá chất lượngphân cụm và áp dụng đánh giá chất lượng kết quả phân cụm của máy tínhtìm kiếm VNSEN VNSEN là máy tìm kiếm dựa trên mã nguồn mở cótích hợp phân cụm do nhóm tác giả phát triển Có nhiều phương phápphân cụm khác nhau như K- Means, STC, HAC có thể áp dụng vào phâncụm các trang Web trả về của máy tìm kiếm Và việc đánh giá thường dựavào chất lượng kết quả phân cụm Để người dùng có thể tìm được tài liệumong muốn một cách nhanh chóng thì cần phải gán nhãn các cụm tốt.Tồn tại một số phương pháp đánh giá như sau:

- Đánh giá phân cụm dựa vào kinh nghiệm của người dùng: nhãncụm cần ngắn gọn súc tích và không trùng lặp quá nhiều, số lượng cụmtạo ra vừa đủ để người dùng không bị quá tải bởi các chủ đề quá cụ thể,nhãn cụm cần tránh chứa các từ truy vấn Thuật toán phân cụm phải đủnhanh để có thể phân cụm với lượng thời gian phù hợp Xử lý ngôn ngữcũng rất quan trọng để tránh các từ gần nghĩa, đồng nghĩa

Trang 20

- Các tiêu chí đánh giá độ kết dính và cô lập của các cụm: độ côđọng súc tích là độ dính kết hoặc đơn nhất của mỗi cặp đối tượng trongtừng cụm riêng rẽ Độ co lập đo sự tách biệt giữa hai cụm Nguyễn ThịThu Chung và cộng sự giới thiệu 4 tiêu chuẩn đánh giá chất lượng chophân cụm để đảm bảo tính kết dính và độc lập là: giảm tối thiểu tổngkhoảng cách (tổn khoảng cách giữa trọng tâm các cụm với trọng tâm toàncục và tổng khoảng cách giữa đối tượng với trọng tâm của cụm chứa đốitượng), phân cụm sao cho độ tách biệt giữa các cụm là lớn nhất, vị trí cụmcủa đối tượng và số lượng có vị trí cụm đúng.

- Phương pháp đanh giá dựa vào tập dữ liệu mẫu: chọn một chuẩn

cơ sở để so sánh khả năng phân cụm: độ đo chất lượng phân cụm, đo chấtlượng của một hệ thống phân cụm bởi các mức Một số độ đo được sửdụng là MNI (normalized mutual information), độ hồi tưởng, độ chínhxác, F, Purity (chỉ ra độ tinh khiết, rõ ràng của cụm i )

Từ các phương pháp trên tác giả đã tiến hành đánh giá chất lượngphân cụm của máy tìm kiếm VNSEN dựa trên cây phân cấp chủ đề và sosánh với kết quả phân cụm của máy tìm kiếm vivisimo

- Dựa vào cây phân cấp chủ đề: cây phân cấp chủ đề là một cấutrúc thư mục Web lớn được xây dựng Tác giả tiến hành thu thậptài liệu trên Wikipedia tiếng Việt và tạo cây phân cấp thô banđầu Sau đó lọc ra các chủ đề chưa có tài liệu, các tài liệu chưa

có nội dung hoặc chưa được dịch Thực hiện tách các thẻ html.Hiện tại, đã xây dựng được cây phân cấp với 10 gốc chủ đề và

500 chủ đề các cấp Thử nghiệm và thông qua hai độ đo là F vàPurity cho thấy modul phân cụm có chất lượng tốt

Ngày đăng: 13/03/2016, 11:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w