Phân loại các bài báo khoa học dựa trên độ đo tương tự

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

NGUYEN VĂN CƯỜNG

PHAN LOẠI CÁC BÀI BAO KHOA HỌC DUA TREN

DO DO TUONG TU

HA NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS.TS Tran Đình Qué

Học viện Công nghệ Bưu chính Viễn thông

Có thê tìm hiéu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính Viễn thông

HÀ NỘI - 2015

Trang 3

MO DAU

Tính cấp thiết của dé tai

Trong thế giới hiện đại, với khối lượng ngày càng tăng của các tài nguyên

văn bản qua Internet và các thư viện kỹ thuật s6[4] Sự phát triển của khoa học và

mang lưới Internet rộng khắp đã giúp cho các nhà khoa học có thé dé dàng công bố

các phát minh, các nghiên cứu của mình từ đó chia sẻ và mở rộng tri thức cho nhân

loại Trong mạng đó có những bài báo là bài báo quan trọng có tác động rất lớn đến

các bài báo khác nhưng cũng có những bài không có tầm ảnh hưởng lớn Các nhà

khoa học thường xuyên tra cứu các thông tin liên quan đến việc nghiên cứu của mình Vì vậy, việc giúp cho các nhà khoa học dễ dàng tìm hiểu các thông tin liên quan đến các vấn đề mà mình nghiên cứu thực sự quan trọng Từ đây, có thể nhận thay rang việc tô chức các tài liệu này đã trở thành một nhu câu thực tế Dé làm

được việc đó thì việc phân cụm tài liệu theo hướng nghiên cứu là việc làm cần thiết.

Thuật toán phân cụm đòi hỏi một thước do dé xác định sự khác biệt giữa hai tài liệu được đưa ra Sự khác biệt này thường được đo bằng một vì phương pháp đo khoảng

cách như là khoảng cách Euclide, Cosince[4] Như vậy phân cụm các tài liệu khoa

học sẽ giúp ích rất lớn cho các nhà khoa học trong việc phát triển nghiên cứu của mình, nhất là các nhà khoa học trẻ mới tiếp cận đến việc nghiên cứu khoa học, đồng thời cũng giúp các cơ quan quản lý quản lý tốt hơn các tài liệu khoa học hiện có.

Chính vì những lý do trên nên luận văn lựa chọn đề tài là “Phân loại các bài

báo khoa học dựa trên độ đo tương tự”

Lịch sử nghiên cứu

Việc phân cụm các bài viết khoa học đã được đề xuất từ lâu, nhưng một thời gian gần đây mới có các nghiên cứu về phân cụm bài báo khoa học thoe chủ đề

được công bố trên các tạp chí Việc phân cụm các bài viết khoa học theo hướng nghiên cứu sẽ giúp phân chia các bài viết khoa học theo các hướng nghiên cứu, các

hướng đề tài Việc đó giúp cho các nhà nghiên cứu dễ dàng tiếp cận được với tài

liệu cũng như các nhà nghiên cứu khác đang nghiên cứu về cùng một lĩnh vực.

Trang 4

Đã có nhiêu bài nghiên cứu vê phân cụm tài liệu theo chủ đê đã được công

bồ trên các tạp chí như:

Năm 2002, Ying Zhao,George Karypis công bố nghiên cứu “Comparison of

Agglomerative and Partitional Document Clustering Algorithms” trên tạp chí

Department of Computer Science [11].

Năm 2005, B Dorow công bố nghiên cứu “Using curvature and Markov

clustering in graph for lexical acquisition and word sense discrimination” trén tapchi Workshop organized by the Meaning project [5].

Năm 2007, Nicholas O Andrews and Edward A Fox công bố nghiên cứu

“Recent Developments in Document Clustering” trén tap chi Department ofComputer Science [8].

Năm 2008, T Theodosiou, N Darzentas, L Angelis, C A Ouzounis công

bó nghiên cứu “PuRed-MCL: a graph-based PubMed document clustering

methodology” trén tap chi Bioinformatics [10].

Năm 2011, P Perumal, R Nedunchezhian công bố nghiên cứu

“Performance Evaluation of Three Model-Based Documents ClusteringAlgorithms” trên tạp chí European Journal of Scientific Research [9].

Mục đích nghiên cứu

Mục đích của đề tài là tìm hiểu phương pháp phân cụm dựa trên độ đo tương

tự Từ đó tìm hiểu sâu hơn về các phương pháp đo độ tương tự, thuật toán phân

cụm Cuối cùng là xây dựng được một chương trình thực nghiệm dé thực hiện phân

loại các bài báo khoa học theo hướng nghiên cứu dựa theo độ tương tự giữa nội

dung các bài báo nghiên cứu khoa học.

Đối tượng và phạm vi nghiên cứu

Đôi tượng nghiên cứu là cơ sở dữ liệu các bài báo khoa học.

Trang 5

Phạm vi nghiên cứu của luận văn là các cơ sở dữ liệu các bài báo khoa học,

bài hội nghị, các phương pháp thống kê, khai phá dữ liệu và học máy, thuật toán và

ngôn ngữ lập trình,

Đóng góp mới của luận văn

Khảo sát, nghiên cứu và xây dựng chỉ số đánh giá độ tương tự giữa các bài

viết khoa học làm cơ sở thực hiện phân cụm tài liệu khoa học theo hướng nghiên

Ket cầu luận văn

Nội dung luận văn được trình bày trong 3 chương và phần kết luận.

Chương 1: Khái quát cơ sở dữ liệu bài báo khoa học

Chương 2: Một số kỹ thuật sử dụng cho phân loại bài báo khoa học

Chương 3: Ứng dụng độ đo tương tự về nội dung cho phân loại bài báo

khoa học

Phương pháp nghiên cứu

Kết hợp nghiên cứu lý thuyết và thực tiễn, đồng thời tiến hành cài đặt thử

nghiệm các thuật toán đưa ra để có được các đánh giá sơ bộ về hiệu quả của các

thuật toán được áp dụng.

Trang 6

CHUONG 1- CƠ SO DU LIEU BAI BAO KHOA HỌC

1.1 Các thông tin căn bản về một bài báo khoa hoc

1.LI Xác định các thông tin can thiết về một bài báo khoa học

Thông tin về một bài báo khoa học thường bao gồm 6 thông tin căn bản như

- Tén bai bao.

- Danh sach cac tac gia cua bai bao.

- Tạp chí công bố (Nơi các tác giả đăng bài viết của mình).

- Năm công bố bài báo.

- Danh sách các trích dẫn thông tin của bài báo.

- Tóm tắt nội dung của bài báo.

Với các thông tin như trên vê các bài báo khoa học, chúng ta có thê xây dựng

được các môi quan hệ giữa các bài báo, các tác giả, các tạp chí, Các thông tin đó

có thê phục vụ cho nhiêu mục đích nghiên cứu khác nhau.

1.1.2 Thu thập và xử lý thông tin

Dữ liệu về các bài báo khoa học sử dụng trong luận văn này được lây tại

website: http://arnetminer.org Sử dụng tập dữ liệu PROXIMITY DBLP (v4

-version 4) được công bố bởi DBLP Compuer Science Bibliography Dữ liệu trong

tập dữ liệu này được trích xuất vào ngày 08 thang 1 năm 2011 Mỗi một mục dit liệu trong tập dữ liệu DBLP gồm có 6 thông tin khác nhau: Tên bài báo, các tác giả, tạp chí công bó, các trích dẫn, năm công bố, tóm tắt nội dung bài báo.

Mỗi mục dữ liệu trong tập dữ liệu DBLP có cấu trúc như sau:

#* Tên bài báo

Trang 7

#@ Danh sách tác giả cách nhau bởi dau phẩy #t Năm công bố

#c Nơi công bồ thường là các tạp chí #index 00 Số thứ tự của bài báo

#% Số hiệu của các bài báo được trích dẫn trong bài báo này (mỗi một trích dan được trình bày trên một dòng riêng biệt)

#! Tóm tắt nội dung bài báo (tóm tắt bài báo được trình bày trong một

Tập dữ liệu trên về các bài báo khoa học có 1.397.240 bài báo với 1.062.624

tác giả, 16.442 tạp chí, 3.021.489 trích dẫn.

1.2 Các mối liên kết giữa các bài báo khoa học

Các yêu tố tham gia vào việc xây dựng các chỉ sỐ hoạt động khoa học của các tác giả và các chỉ số phân cụm các bài báo bao gồm không những nội dung của bài báo đó mà còn phụ thuộc rất nhiều vào các mối liên kết giữa các bài báo tiềm ân trong cơ sở dữ liệu các bài báo Các liên kết này bao gồm: liên kết trích dẫn, liên kết đồng tác giả, liên kết dựa trên từ khóa, v.v Thông qua các liên kết khác như các các liên kết về từ khóa, liên kết về đồng tác giả, v.v sẽ làm cho một bài báo dé dang

được nhiều người đón đọc và có thể sẽ trở thành bài có trích dẫn nhiều trong tương lai Luận văn tập trung nghiên cứu khai thác các mối liên kết kiểu mạng xã hội này

trong việc xây dựng độ do phân cụm các bài báo.

1.2.1 Mạng liên kết tác giá và đồng tác giả trong cộng dong nghiên cứu

Trong mạng tác giả và đồng tác giả, mỗi nút mạng là một bài báo khoa học, hai nút mạng có một liên kết với nhau nếu chúng có chung một tác giả, hai nút sẽ có

n liên kêt với nhau nêu chũng có chung n tác giả.

Trang 8

Hình 1.2: Hai bài báo có chung hai tác giả

Trong mạng trích dân các bài báo, môi nút mạng là một bài báo, các nút

mạng có quan hệ với nhau thông qua việc trích dẫn nội dung của nhau Như vậy,

trong mạng trích dan nội dung các bài báo, hai nút mạng chỉ có một môi quan hệ

duy nhất Cau trúc mạng như vậy tương đương với một đơn đồ thị có hướng.

Trang 9

1.2.3 Mạng hiên kết giữa các bài báo có cùng hướng nghiên cứu.

Sự tương đồng về nội dung giữa các bài báo thông thường được thể hiện qua hai yếu tố, thứ nhất là các trích dẫn nội dung sử dụng trong bài báo, thứ hai là các từ

khóa xuất hiện trong bài báo.

Hai bài báo bất kỳ có thể không có chung từ khóa nào, cũng có thể có chung nhiều từ khóa, tương ứng với hai nút mạng từ khóa có thể không có liên kết nào mà

cũng có thê có nhiêu hơn một liên kêt.

Từ phân tích trên ta thay mối liên hệ giữa các nút mang trong mang từ khóa

không phải là mọi liên kết đều có ý nghĩa như nhau, mà có liên kết được coi là quan

trọng, có liên kết kém quan trọng hơn Như vậy mạng các từ khóa giống như một đa

đô thị mà moi một cạnh của nó đêu có trọng sô riêng biệt.

Trang 10

1.3 Xây dựng cơ sở dữ liệu về bài báo khoa học cho các chương trình

thử nghiệm

Tập dữ liệu đã thu thập được xử lý và lưu trữ trong hệ quản tri cơ sở dữ liệu

Microsoft SQL dé phục vụ cho các truy vấn thông tin được nhanh chóng Tập dữ liệu được phân tích và lưu trữ trong 7 bảng gồm: Papers, Keywords,

PaperKeywords, Refs, Authors, Publications, Stopwords.

Bảng Stopwords không được xây dựng từ trong tập dữ liệu đã thu thập mà

được lấy từ địa chỉ:

Hình 1.6: Sơ đồ liên kết thực thé của chương trình

Với cơ sở dữ liệu đã xây dựng như trên, chúng ta có thé lay được đầy đủ các

thông tin về các bai báo khoa học, các môi liên kêt giữa chúng như: môi quan hệ tác

Trang 11

giả và đông tác giả, môi quan hệ giữa các tạp chí khoa học, môi quan hệ trích dẫnthông tin của các bài báo, môi quan hệ giữa các bài báo có cùng hướng nghiên cứu

dựa trên nội dung bài báo.

1.4 Kết luận

Trang 12

CHƯƠNG 2- MỘT SÓ KỸ THUẬT SỬ DỤNG CHO PHAN LOẠI BAI BAO KHOA HỌC

2.1 DO tuong tu

2.1.1 Tổng quan về độ tương tự

Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là khoảng cách)

thuộc phạm vi toán học, chang hạn trong lý thuyết tôpô và xấp xi; nhưng trong khoa

học máy tính và các ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và không theo thé thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự

tương tự” xuât hiện ở nhiêu dạng, diễn xuất và ứng dụng.

Khái niệm “sự tương tự” có nhiều dạng khác nhau Bat chap những khác

biệt, chúng đều có điểm chung: “Sự tương tự” được sử dụng để so sánh hai (hay

nhiều) đối tượng, hai hoàn cảnh, hai van dé, v.v với nhiều nguyên do khác nhau.

Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp

sau đó được thực hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết Vì lí do đó, hai đối tượng được đem so sánh có những vai trò khác nhau Đối tượng thứ nhất đã được xem xét và được gọi là vấn đề (Problem) Déi tượng thứ hai là đã biết

và đã lưu thường được gọi là bản mẫu (Prototype) hay tình huống (case).

“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết van dé, nồi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình huống CBR (case-base Reasoning), và nhận dạng mẫu (Pattern

Recognigation) Chúng có liên hệ với nhau và không có ranh giới rõ ràng giữa phép

loại suy và các phương pháp khác Lập luận dựa theo tình huống (CBR) là một cách

rất tong quát dé giải quyết van dé bằng cách sử dụng các kinh nghiệm trước đó Những kinh nghiệm này được ghi lại trong một cơ sở dữ liệu gọi là kho tình huống.

Trang 13

Độ do tương tự là một trong những phương pháp tốt dé máy tinh phân biệt

được các văn bản qua nội dung của chúng Xét theo khía cạnh nào đó, độ tương tự

càng lớn, khả năng hai văn bản được nói vê cùng nội dung càng nhiêu.

2.1.2 Khái niệm độ tương tw

Nhiều độ đo tương tự đã được đưa ra, chăng hạn như nội dung thông tin

(Resnik, 1995b), độ đo thông tin chung (mutual information — Hindle, 1990), độ do

dựa trên khoảng cahs (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương

phan (Tversky, 1977) McGill etc đã khảo sat và so sánh 67 độ đo độ tương tự đã sử

dụng trong tìm kiếm thông tin (McGill et al., 1979).

Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:

e Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ lý thuyết thông tin Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xác suất Từ đó lý thuyết xác suất cso thể được tích hợp với nhiều loại thé hiện của tri thức, chăng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl,

1988), định nghĩa của chúng ta về độ tương tự có thé được áp dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước Hơn nữa, tính phổ biến của định

nghĩa còn cho phép độ đo được sử dụng trong lĩnh vực không có giả định trước,

chăng hạn như độ tương tự giữa các giá tri có thứ tự.

e Tính giả định (Theoretical Justification): độ đo độ tương tự không được

định nghĩa một cách trực tiếp bởi công thức Hơn nữa, nó được phân phát từ một tập các giả định về độ tương tự Mặt khác, nếu các giả định được cho là hợp lý, độ đo độ tương tự cần thiết phải xảy ra.

a) Định nghĩa độ tương tự

Mục đích của luận văn là cung cấp định nghĩa chính thức về khái niệm độ tương tự, đầu tiên luận văn đưa ra các trực giác (intuitions) về độ tương tự.

e Trực giác 1: Độ tương tự giữa A và B có liên quan đến sự tương đồng của chúng Sự tương đồng càng nhiều, độ tương tự càng lớn.

Trang 14

e Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác

biệt giữa chúng Càng nhiều sự khác biệt, độ tương tự càng thấp.

e Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt đước khi A và B giống hệt nhau ( được gọi là sự đồng nhất — identical).

b) Độ tương tự giữa các giá trị có thứ tự ưu tiên

c) Độ tương tự chuỗi

d) Độ tương tự ngữ nghĩa

2.2 Khảo sát các phương pháp phân loại tài liệu phố biến

Các kỹ thuật phân cụm có nhiều cách tiếp cận khác nhau, nhưng chúng đều hướng đến mục tiêu là chất lượng của các cụm và tốc độ phân cụm Các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính như sau:

Phương pháp phân cụm phân hoạch: Kỹ thuật này phân hoạch một tập dữ

liệu có n phần tử thành k nhóm cho đến khi số các cụm được thiết lập là các đặc trưng được lựa chọn trước Một số thuật toán phân cụm dữ liệu phân hoạch điển

hình như: K-means, PAM, CLARA, CLULARANS

Phương pháp phân cum phân cấp: Là kỹ thuật sắp xếp một tập dit liệu đã cho thành một cấu trúc có hình dạng cây, cây phân cấp được xây dựng theo kỹ thuật đệ quy Cây phân cụm này có thể được xây dựng theo hai phương pháp: Phương pháp từ trên xuống và phương pháp từ dưới lên.

Phương pháp phân cụm dựa trên mật độ: Phương pháp này thực hiện việc

nhóm các đối tượng theo hàm mật độ xác định Mật độ ở đây được hiểu là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngưỡng nào đó Trong cách tiếp cận này, khi một cụm dữ liệu đã được xác định thì nó tiếp tục được phát

triểnthêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận của đối tượng

này phải lớn hơn ngưỡng đã xác định Một số thuật toán phân cụm dựa trên mật độ có thé kế đến như: DBSCAN, OPTICS, DENCLUE

Trang 15

Phương pháp phân cụm dựa trên lưới: Kỹ thuật phân cụm dựa trên mật độ

không thích hợp với các dữ liệu nhiều chiều, để giải quyết vấn đề này người ta sử dụng phương pháp phân cụm dựa trên lưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới dé phân cụm dữ liệu, phương pháp này tập trung áp dung cho các dữ liệu không gian Ưu điểm của phương pháp này là thời gian xử lý nhanh và độc lập với số các đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ

thuộc vào sô ô trong môi chiêu không gian của lưới.

Phương pháp phân cụm dựa trên mô hình: Phương pháp phân cụm dựa

trên mô hình cố gang thực hiện khớp giữa dữ liệu với mô hình toán học, nó dựa trên

giả định rằng dữ liệu được tạo ra bang hỗn hợp phân phối xác suất cơ bản Các thuật

toán phân cụm dựa trên mô hình có hai tiếp cận chính là Mô hình thống kê và Mạng

Phương pháp phân cum có dữ liệu ràng buộc: Sự phát triển của phân cum dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải

được thỏa mãn trong quá trình phân cụm.

Phương pháp phân cụm dựa trên phân hoạch của đồ thị: Trong thực tế các dữ liệu có liên quan với nhau và kết hợp với nhau tạo thành một mạng hay ta còn gọi là một đồ thị (đồ thị có thể có hướng, vô hướng, có trọng số hay không có

trọng số) Thuật toán điển hình trong phân hoạch đồ thị là thuật toán Markov

2.3 Các phương pháp đo độ tương tự

Phân cụm yêu cầu phải định nghĩa được một khoảng cách cái mà sẽ gán một giá tri số ở mức độ khác biệt giữa hai văn bản và có cách thuật toán phân cụm sử dụng để tạo nên các nhóm khác nhau của một tập dữ liệu cho trước Không một biện pháp tính toán khoảng cách đơn nào là tối ưu cho tất cả các kịch bản cần thiết

Tiêu đề	Phân loại các bài báo khoa học dựa trên độ đo tương tự
Tác giả	Nguyen Văn Cường
Người hướng dẫn	PGS.TS. Trần Đình Quế
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	29
Dung lượng	4,67 MB