Phƣơng pháp ghom cụm tài liệu theo thực thể có tên- 123docz.net

Gom cụm các tài liệu là quá trình nhóm các tài liệu có sự tương tự với nhau lại thành cụm. Kết quả của quá trình gom cụm là các phân cụm chứa các tài liệu liên quan sao cho độ tương tự giữa hai tài liệu bất kỳ trong cùng phân cụm lớn hơn độ tương tự giữa hai tài liệu ở hai phân cụm khác nhau. Hiện nay, hầu hết các giải thuật gom cụm tài liệu sử dụng mô hình không gian vector để biểu diễn cho mỗi đối tượng tài liệu. Tập hợp các thuật ngữ (term) sẽ hình thành một không gian vector thuật ngữ; mỗi tài liệu được biểu diễn bằng một vector d trong không gian vector này. Tập các vector đại diện cho tập các tài liệu tạo thành một ma trận thuật ngữ - tài liệu, trong đó mỗi vector là một hàng của ma trận, mỗi cột của ma trận ứng với một thuật ngữ.

Gom cụm tài liệu là sự phân chia và sắp xếp các tài liệu trong một tập tài liệu ban đầu vào các nhóm tài liệu nhỏ hơn. Tiêu chí của sự sắp xếp này là: trong mỗi nhóm, các cặp tài liệu có sự tương quan với nhau ở một mức độ nào đó, ví dụ như độ tương tự giữa

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 35 hai tài liệu trong nhóm phải lớn hơn (hoặc khoảng cách nhỏ hơn) một hệ số quy định; hoặc một tài liệu được xếp vào một nhóm khi khoảng cách của tài liệu đến nhóm đó nhỏ hơn khoảng cách của tài liệu đến tất cả các nhóm khác (hoặc độ tương tự lớn hơn). Tiêu chí để xếp các tài liệu vào các nhóm sẽ thay đổi tùy theo giải thuật được sử dụng.

Có hai phương pháp ghom cụ tài liệu phổ biến như: giải thuật K-means cơ bản (Basic K-means), giải thuật Fuzzy C-means (FCM)

 Gom cụm dựa trên cấu trúc cây ontology

Chúng ta tiếp cận theo một hướng khác cho bài toán gom cụm. Thay vì sắp xếp các tài liệu vào các nhóm trước rồi mới đi tìm hiểu xem các tài liệu trong nhóm đó nói về cái gì để tạo nhãn cho phân nhóm, thì trong phương pháp này, chúng ta sẽ tìm hiểu xem tài liệu nói về các gì trước, rồi mới phân bổ các tài liệu này vào các nhóm sau. Các bước xử lý tài liệu ban đầu gần tương tự như đối với phương pháp không gian vector, đó là công việc tập hợp các thực thể xuất hiện trong tài liệu.

Theo như đã phân tích ở phần thực tập tốt nghiệp, phương pháp này gom cụm phân cấp dựa trên lớp thực thể và định danh của thực thể. Tiêu chí chính của phương pháp gom cụm này là theo thực thể trội, tức là các thực thể xuất hiện nhiều hơn so với các thực thể khác được chọn làm tiêu chí để sắp xếp tài liệu vào phân nhóm. Như vậy, những tài liệu có các thực thể trội giống nhau sẽ được xem như là tương tự với nhau, và được xếp vào chung một nhóm. Việc gom cụm được thực hiện qua hai bước. Bước thứ nhất gom cụm dựa trên lớp thực thể, và bước thứ hai gom cụm dựa trên định danh của thực thể.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 36

Phần4

TỔNG KẾT

Mô hình không gian vector nhiều chiều cho việc xử lý thông tin dựa trên thực thể có tên (NE) thích nghi với VSM truyền thống dựa trên keyword thông quan không gian NE. Mỗi tài liệu (query) được đại diện bởi 4 thành phần vector qua 4 không gian của tên (name), loại (type), cặp tên-loại (name-type) và định danh (identifier) cho phép tìm kiếm và gom nhóm tài liệu theo những đặc điểm khác nhau của NE. Trọng số của mỗi phần tử trong vector được tính toán theo công thức tf.idf. Độ tương tự giữa 2 tài liệu được định nghĩa là khoảng cách giữa 2 vector đại diện. So sánh với những mô hình NE khác, sự cần thiết của mô hình được giới thiệu là sự khác nhau của những đặc điểm trong thực thể có tên, sự gộp lại giữa loại và tên là những thứ được tính đến.

Áp dụng mô hình này để gom cụm tài liệu với những thực thể có tên có trong mỗi tài liệu. Thí nghiệm cho thấy gom cụm dựa trên NE là sự bổ sung cho keyword, đem lại những gom cụm ý nghĩa và chính xác cho người dùng tùy thuộc vào từng đặc điểm khác nhau của thực thể có tên. Nó có thể hữu ích cho việc học trên các tài liệu văn bản, nơi có nhiều chủ đề, khái niệm mà chính là những thực thể có tên.

Việc xây dựng một bộ phân tích tiếng Việt hoàn chỉnh có lẽ là hướng phát triển tiềm năng nhất của bài toán này. Để làm được việc đó, ngoài việc phát triển một bộ phân tích cú pháp đầy đủ, ta cũng cần có một phương pháp đủ mạnh để nhận diện chính xác hơn các thực thể và loại của chúng. Về giải pháp biến đổi đồ thị ý niệm dùng hệ thống luật, có hai hướng phát triển chính cho vấn đề này: hoặc tiếp tục làm giàu thêm tập luật để có thể xử lý nhiều hơn; hoặc nghiên cứu một giải pháp khác.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 37 Một vấn đề quan trọng của bài toán gom cụm là tốc độ xử lý trên một số lượng lớn các tài liệu. Do đó một hướng phát triển của bài toán này là cải thiện hiệu suất của giải thuật. Ta cũng cần cải tiến giải pháp tạo nhãn cho phân cụm nhằm thể hiện rõ vai trò của thực thể có tên khi hiển thị các tài liệu. Mô hình không gian vector cần quan tâm nhiều hơn đến mối quan hệ cha con giữa các thực thể, đặc biệt là thông tin về lớp của thực thể. Ngoài ra, ta cũng cần nghiên cứu thêm các giải thuật gom cụm khác.

Phân loại tài liệu theo thực thể có tên là một phương pháp hữu ích trong việc tìm kiếm và quản lý tài liệu, đặc biệt là giải quyết vấn đề tài liệu ngữ nghĩa. Nó cho phép quản lý tài tốt nguyên học tập trên web đối với những đối tượng liên quan. Tuy nhiên, trong một số trường hợp tìm kiếm theo keyword vẫn tỏ ra rất hữu ích. Đơn cử một trường hợp tìm kiếm trên những tài liệu mà số lượng thực thể có tên là rất ít, nội dung của tài liệu phụ thuộc chủ yếu vào những keyword. Khi đó, phương pháp tìm kiếm phân loại dựa vào thực thể có tên tỏ ra không hiệu quả. Một phương pháp cải tiến được đề xuất là sử dụng mô hình vector 5 thành phần với thành phần thứ 5 là keyword. Theo mô hình này, một term được xem như một vector gồm 5 thành phần: tên, loại, cặp tên – loại, định danh của thực thể có tên, và keyword. Mô hình này đảm bảo quá trình phân loại tài liệu được thực hiện dựa trên cả hai tiêu chí là thực thể có tên và keyword. Điều chỉnh tỉ lệ giữa hai tiêu chí sao cho thích hợp với tập tài liệu sẽ cho ta một kết quả phân loại và tìm kiếm tốt.

Như ta đã thấy bài toán tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt được giải quyết bằng phương pháp gián tiếp – phương pháp trí tuệ nhân tạo và sử dụng một số nguyên tắc sáng tạo như:nguyên tắc kết hợp (thay đổi VSM truyền thống bằng việc kết

hợp thêm thành phần thực thể có tên (tên, loại, tên-loại, định danh)), nguyên tắc phân

nhỏ, nguyên tắc thứ tự…Bài toán không thể giải quyết bằng việc cài đặt các thủ tục, thuật toán thông thường; những bài toán như thế này có tính khát quát chung cho nhiều trường hợp và việc cài đặt cho từng trường hợp cụ thể là không thể được. Vì vậy cần nắm bắt được mô hình, ý tưởng chung của bài toán thông qua các phương pháp giải quyết vấn đề - bài toán trong tin học và có thể cải tiến chúng phù hợp với mục tiêu cần giải quyết. Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con đường sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực hiện nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 38

TÀI LIỆU THAM KHẢO

[1]Phan Dũng. Các thủ thuật (nguyên tắc) sáng tạo cơ bản: Phần 1. NXB Đại học Quốc gia TPHCM, 2007.

[2] PGS.TS Lưu Xuân Mới. Phương pháp luận nghiên cứu khoa học.

[3] Bạch Hưng Khang và Hoàng Kiếm. Giáo trình Trí tuệ nhân tạo, các phương pháp và

ứng dụng. NXB Khoa học kỹ thuật, 1989

[4] Hoàng Kiếm. Giải một bài toán trên máy tính như thế nào, tập 1. Nhà Xuất Bản Giáo dục, 2000.

[5] Hoàng Kiếm. Giáo trình Công nghệ Tri thức và Ứng dụng. Đại học Quốc gia TPHCM – Chương trình đào tạo Thạc sĩ CNTTQM, 2004.

[6] Cao Hoàng Trụ. Giáo trình Trí tuệ nhân tạo = Thông minh + Giải thuật. NXB Đại học Quốc gia TPHCM, 2008.

[7] GS.TSKH. Hoàng Kiếm. Slide: phương pháp nghiên cứu khoa học trong tin học

(Research Methodology in Computer Science).

[8] Hồng Trung Dũng và Trần Hoàng Thao. Luận văn đại học: Tìm kiếm ghom cụm tài liệu

theo thực thể có tên.

[9] Hoàng Minh Sơn và Phạm Thế Nghĩa. Luận văn đại học: Hiện thực hệ thống quản lý và xử lý các trang web tiếng việt có ngữ nghĩa.