Phương pháp ghom cụm tài liệu theo thực thể có tên

Một phần của tài liệu giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 38 - 43)

Gom cụm các tài liệu là quá trình nhóm các tài liệu có sự tương tự với nhau lại

thành cụm. Kết quả của quá trình gom cụm là các phân cụm chứa các tài liệu liên quan

sao cho độ tương tự giữa hai tài liệu bất kỳ trong cùng phân cụm lớn hơn độ tương tự

giữa hai tài liệu ở hai phân cụm khác nhau. Hiện nay, hầu hết các giải thuật gom cụm tài

các thuật ngữ (term) sẽ hình thành một không gian vector thuật ngữ; mỗi tài liệu được

biểu diễn bằng một vector d trong không gian vector này. Tập các vector đại diện cho tập

các tài liệu tạo thành một ma trận thuật ngữ - tài liệu, trong đó mỗi vector là một hàng

của ma trận, mỗi cột của ma trận ứng với một thuật ngữ.

Gom cụm tài liệu là sự phân chia và sắp xếp các tài liệu trong một tập tài liệu ban

đầu vào các nhóm tài liệu nhỏ hơn. Tiêu chí của sự sắp xếp này là: trong mỗi nhóm, các

cặp tài liệu có sự tương quan với nhau ở một mức độ nào đó, ví dụ như độ tương tự giữa

hai tài liệu trong nhóm phải lớn hơn (hoặc khoảng cách nhỏ hơn) một hệ số quy định;

hoặc một tài liệu được xếp vào một nhóm khi khoảng cách của tài liệu đến nhóm đó nhỏ

hơn khoảng cách của tài liệu đến tất cả các nhóm khác (hoặc độ tương tự lớn hơn). Tiêu

chí để xếp các tài liệu vào các nhóm sẽ thay đổi tùy theo giải thuật được sử dụng.

Có hai phương pháp ghom cụ tài liệu phổ biến như: giải thuật K-means cơ bản

(Basic K-means), giải thuật Fuzzy C-means (FCM)

Gom cụm dựa trên cấu trúc cây ontology

Chúng ta tiếp cận theo một hướng khác cho bài toán gom cụm. Thay vì sắp xếp

các tài liệu vào các nhóm trước rồi mới đi tìm hiểu xem các tài liệu trong nhóm đó nói về

cái gì để tạo nhãn cho phân nhóm, thì trong phương pháp này, chúng ta sẽ tìm hiểu xem

tài liệu nói về các gì trước, rồi mới phân bổ các tài liệu này vào các nhóm sau. Các bước

xử lý tài liệu ban đầu gần tương tự như đối với phương pháp không gian vector, đó là

công việc tập hợp các thực thể xuất hiện trong tài liệu.

Theo như đã phân tích ở phần thực tập tốt nghiệp, phương pháp này gom cụm

phân cấp dựa trên lớp thực thể và định danh của thực thể. Tiêu chí chính của phương

pháp gom cụm này là theo thực thể trội, tức là các thực thể xuất hiện nhiều hơn so với các

thực thể khác được chọn làm tiêu chí để sắp xếp tài liệu vào phân nhóm. Như vậy, những

tài liệu có các thực thể trội giống nhau sẽ được xem như là tương tự với nhau, và được

xếp vào chung một nhóm. Việc gom cụm được thực hiện qua hai bước. Bước thứ nhất

gom cụm dựa trên lớp thực thể, và bước thứ hai gom cụm dựa trên định danh của thực (adsbygoogle = window.adsbygoogle || []).push({});

Phần4

TNG KT

Mô hình không gian vector nhiều chiều cho việc xử lý thông tin dựa trên thực thể

có tên (NE) thích nghi với VSM truyền thống dựa trên keyword thông quan không gian NE. Mỗi tài liệu (query) được đại diện bởi 4 thành phần vector qua 4 không gian của tên (name), loại (type), cặp tên-loại (name-type) và định danh (identifier) cho phép tìm kiếm

và gom nhóm tài liệu theo những đặc điểm khác nhau của NE. Trọng số của mỗi phần tử

trong vector được tính toán theo công thức tf.idf. Độ tương tự giữa 2 tài liệu được định

nghĩa là khoảng cách giữa 2 vector đại diện. So sánh với những mô hình NE khác, sự cần

thiết của mô hình được giới thiệu là sự khác nhau của những đặc điểm trong thực thể có

Áp dụng mô hình này để gom cụm tài liệu với những thực thể có tên có trong mỗi

tài liệu. Thí nghiệm cho thấy gom cụm dựa trên NE là sự bổ sung cho keyword, đem lại

những gom cụm ý nghĩa và chính xác cho người dùng tùy thuộc vào từng đặc điểm khác

nhau của thực thể có tên. Nó có thể hữu ích cho việc học trên các tài liệu văn bản, nơi có

nhiều chủ đề, khái niệm mà chính là những thực thể có tên.

Việc xây dựng một bộ phân tích tiếng Việt hoàn chỉnh có lẽ là hướng phát triển

tiềm năng nhất của bài toán này. Để làm được việc đó, ngoài việc phát triển một bộ phân

tích cú pháp đầy đủ, ta cũng cần có một phương pháp đủ mạnh để nhận diện chính xác

hơn các thực thể và loại của chúng. Về giải pháp biến đổi đồ thị ý niệm dùng hệ thống

luật, có hai hướng phát triển chính cho vấn đề này: hoặc tiếp tục làm giàu thêm tập luật

để có thể xử lý nhiều hơn; hoặc nghiên cứu một giải pháp khác.

Một vấn đề quan trọng của bài toán gom cụm là tốc độ xử lý trên một số lượng lớn

các tài liệu. Do đó một hướng phát triển của bài toán này là cải thiện hiệu suất của giải

thuật. Ta cũng cần cải tiến giải pháp tạo nhãn cho phân cụm nhằm thể hiện rõ vai trò của

thực thể có tên khi hiển thị các tài liệu. Mô hình không gian vector cần quan tâm nhiều

hơn đến mối quan hệ cha con giữa các thực thể, đặc biệt là thông tin về lớp của thực thể.

Ngoài ra, ta cũng cần nghiên cứu thêm các giải thuật gom cụm khác.

Phân loại tài liệu theo thực thể có tên là một phương pháp hữu ích trong việc tìm kiếm và quản lý tài liệu, đặc biệt là giải quyết vấn đề tài liệu ngữ nghĩa. Nó cho phép

quản lý tài tốt nguyên học tập trên web đối với những đối tượng liên quan. Tuy nhiên,

trong một số trường hợp tìm kiếm theo keyword vẫn tỏ ra rất hữu ích. Đơn cử một trường

hợp tìm kiếm trên những tài liệu mà số lượng thực thể có tên là rất ít, nội dung của tài

liệu phụ thuộc chủ yếu vào những keyword. Khi đó, phương pháp tìm kiếm phân loại dựa (adsbygoogle = window.adsbygoogle || []).push({});

vào thực thể có tên tỏ ra không hiệu quả. Một phương pháp cải tiến được đề xuất là sử

dụng mô hình vector 5 thành phần với thành phần thứ 5 là keyword. Theo mô hình này,

một term được xem như một vector gồm 5 thành phần: tên, loại, cặp tên – loại, định danh

của thực thể có tên, và keyword. Mô hình này đảm bảo quá trình phân loại tài liệu được

thực hiện dựa trên cả hai tiêu chí là thực thể có tên và keyword. Điều chỉnh tỉ lệ giữa hai

Như ta đã thấy bài toán tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt được

giải quyết bằng phương pháp gián tiếp – phương pháp trí tuệ nhân tạo và sử dụng một số

nguyên tắc sáng tạo như:nguyên tắc kết hợp (thay đổi VSM truyn thng bng vic kết hp thêm thành phn thc th có tên (tên, loi, tên-loại, định danh)), nguyên tắc phân

nhỏ, nguyên tắc thứ tự…Bài toán không thể giải quyết bằng việc cài đặt các thủ tục, thuật toán thông thường; những bài toán như thế này có tính khát quát chung cho nhiều trường

hợp và việc cài đặt cho từng trường hợp cụ thể là không thể được. Vì vậy cần nắm bắt được mô hình, ý tưởng chung của bài toán thông qua các phương pháp giải quyết vấn đề

- bài toán trong tin học và có thể cải tiến chúng phù hợp với mục tiêu cần giải quyết.

Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con đường

sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi công

công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực hiện

nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu.

TÀI LIỆU THAM KHẢO

[1]Phan Dũng. Các thủ thuật (nguyên tắc) sáng tạo cơ bản: Phần 1. NXB Đại học Quốc gia TPHCM, 2007.

[2] PGS.TS Lưu Xuân Mới. Phương pháp luận nghiên cứu khoa học.

[3] Bạch Hưng Khang và Hoàng Kiếm. Giáo trình Trí tuệ nhân tạo, các phương pháp và

ứng dụng. NXB Khoa học kỹ thuật, 1989

[4] Hoàng Kiếm. Giải một bài toán trên máy tính như thế nào, tập 1. Nhà Xuất Bản Giáo dục, 2000.

[5] Hoàng Kiếm. Giáo trình Công nghệ Tri thức và Ứng dụng. Đại học Quốc gia TPHCM –

Chương trình đào tạo Thạc sĩ CNTTQM, 2004.

[6]Cao Hoàng Trụ. Giáo trình Trí tuệ nhân tạo = Thông minh + Giải thuật.NXB Đại học Quốc gia TPHCM, 2008.

[7] GS.TSKH. Hoàng Kiếm. Slide: phương pháp nghiên cứu khoa học trong tin học (Research Methodology in Computer Science).

[8] Hồng Trung Dũng và Trần Hoàng Thao. Luận văn đại học: Tìm kiếm ghom cụm tài liệu theo thực thể có tên.

[9] Hoàng Minh Sơn và Phạm Thế Nghĩa. Luận văn đại học: Hiện thực hệ thống quản lý và

Một phần của tài liệu giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 38 - 43)