HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYEN VĂN CƯỜNG
PHAN LOẠI CÁC BÀI BAO KHOA HỌC DUA TREN
DO DO TUONG TU
HA NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS Tran Đình Qué
Học viện Công nghệ Bưu chính Viễn thông
Có thê tìm hiéu luận văn tại:
- Thu viện của Học viện Công nghệ Bưu chính Viễn thông
HÀ NỘI - 2015
Trang 3MO DAU
Tính cấp thiết của dé tai
Trong thế giới hiện đại, với khối lượng ngày càng tăng của các tài nguyên
văn bản qua Internet và các thư viện kỹ thuật s6[4] Sự phát triển của khoa học và
mang lưới Internet rộng khắp đã giúp cho các nhà khoa học có thé dé dàng công bố
các phát minh, các nghiên cứu của mình từ đó chia sẻ và mở rộng tri thức cho nhân
loại Trong mạng đó có những bài báo là bài báo quan trọng có tác động rất lớn đến
các bài báo khác nhưng cũng có những bài không có tầm ảnh hưởng lớn Các nhà
khoa học thường xuyên tra cứu các thông tin liên quan đến việc nghiên cứu của mình Vì vậy, việc giúp cho các nhà khoa học dễ dàng tìm hiểu các thông tin liên quan đến các vấn đề mà mình nghiên cứu thực sự quan trọng Từ đây, có thể nhận thay rang việc tô chức các tài liệu này đã trở thành một nhu câu thực tế Dé làm
được việc đó thì việc phân cụm tài liệu theo hướng nghiên cứu là việc làm cần thiết.
Thuật toán phân cụm đòi hỏi một thước do dé xác định sự khác biệt giữa hai tài liệu được đưa ra Sự khác biệt này thường được đo bằng một vì phương pháp đo khoảng
cách như là khoảng cách Euclide, Cosince[4] Như vậy phân cụm các tài liệu khoa
học sẽ giúp ích rất lớn cho các nhà khoa học trong việc phát triển nghiên cứu của mình, nhất là các nhà khoa học trẻ mới tiếp cận đến việc nghiên cứu khoa học, đồng thời cũng giúp các cơ quan quản lý quản lý tốt hơn các tài liệu khoa học hiện có.
Chính vì những lý do trên nên luận văn lựa chọn đề tài là “Phân loại các bài
báo khoa học dựa trên độ đo tương tự”
Lịch sử nghiên cứu
Việc phân cụm các bài viết khoa học đã được đề xuất từ lâu, nhưng một thời gian gần đây mới có các nghiên cứu về phân cụm bài báo khoa học thoe chủ đề
được công bố trên các tạp chí Việc phân cụm các bài viết khoa học theo hướng nghiên cứu sẽ giúp phân chia các bài viết khoa học theo các hướng nghiên cứu, các
hướng đề tài Việc đó giúp cho các nhà nghiên cứu dễ dàng tiếp cận được với tài
liệu cũng như các nhà nghiên cứu khác đang nghiên cứu về cùng một lĩnh vực.
Trang 4Đã có nhiêu bài nghiên cứu vê phân cụm tài liệu theo chủ đê đã được công
bồ trên các tạp chí như:
Năm 2002, Ying Zhao,George Karypis công bố nghiên cứu “Comparison of
Agglomerative and Partitional Document Clustering Algorithms” trên tạp chí
Department of Computer Science [11].
Năm 2005, B Dorow công bố nghiên cứu “Using curvature and Markov
clustering in graph for lexical acquisition and word sense discrimination” trén tapchi Workshop organized by the Meaning project [5].
Năm 2007, Nicholas O Andrews and Edward A Fox công bố nghiên cứu
“Recent Developments in Document Clustering” trén tap chi Department ofComputer Science [8].
Năm 2008, T Theodosiou, N Darzentas, L Angelis, C A Ouzounis công
bó nghiên cứu “PuRed-MCL: a graph-based PubMed document clustering
methodology” trén tap chi Bioinformatics [10].
Năm 2011, P Perumal, R Nedunchezhian công bố nghiên cứu
“Performance Evaluation of Three Model-Based Documents ClusteringAlgorithms” trên tạp chí European Journal of Scientific Research [9].
Mục đích nghiên cứu
Mục đích của đề tài là tìm hiểu phương pháp phân cụm dựa trên độ đo tương
tự Từ đó tìm hiểu sâu hơn về các phương pháp đo độ tương tự, thuật toán phân
cụm Cuối cùng là xây dựng được một chương trình thực nghiệm dé thực hiện phân
loại các bài báo khoa học theo hướng nghiên cứu dựa theo độ tương tự giữa nội
dung các bài báo nghiên cứu khoa học.
Đối tượng và phạm vi nghiên cứu
Đôi tượng nghiên cứu là cơ sở dữ liệu các bài báo khoa học.
Trang 5Phạm vi nghiên cứu của luận văn là các cơ sở dữ liệu các bài báo khoa học,
bài hội nghị, các phương pháp thống kê, khai phá dữ liệu và học máy, thuật toán và
ngôn ngữ lập trình,
Đóng góp mới của luận văn
Khảo sát, nghiên cứu và xây dựng chỉ số đánh giá độ tương tự giữa các bài
viết khoa học làm cơ sở thực hiện phân cụm tài liệu khoa học theo hướng nghiên
Ket cầu luận văn
Nội dung luận văn được trình bày trong 3 chương và phần kết luận.
Chương 1: Khái quát cơ sở dữ liệu bài báo khoa học
Chương 2: Một số kỹ thuật sử dụng cho phân loại bài báo khoa học
Chương 3: Ứng dụng độ đo tương tự về nội dung cho phân loại bài báo
khoa học
Phương pháp nghiên cứu
Kết hợp nghiên cứu lý thuyết và thực tiễn, đồng thời tiến hành cài đặt thử
nghiệm các thuật toán đưa ra để có được các đánh giá sơ bộ về hiệu quả của các
thuật toán được áp dụng.
Trang 6CHUONG 1- CƠ SO DU LIEU BAI BAO KHOA HỌC
1.1 Các thông tin căn bản về một bài báo khoa hoc
1.LI Xác định các thông tin can thiết về một bài báo khoa học
Thông tin về một bài báo khoa học thường bao gồm 6 thông tin căn bản như
- Tén bai bao.
- Danh sach cac tac gia cua bai bao.
- Tạp chí công bố (Nơi các tác giả đăng bài viết của mình).
- Năm công bố bài báo.
- Danh sách các trích dẫn thông tin của bài báo.
- Tóm tắt nội dung của bài báo.
Với các thông tin như trên vê các bài báo khoa học, chúng ta có thê xây dựng
được các môi quan hệ giữa các bài báo, các tác giả, các tạp chí, Các thông tin đó
có thê phục vụ cho nhiêu mục đích nghiên cứu khác nhau.
1.1.2 Thu thập và xử lý thông tin
Dữ liệu về các bài báo khoa học sử dụng trong luận văn này được lây tại
website: http://arnetminer.org Sử dụng tập dữ liệu PROXIMITY DBLP (v4
-version 4) được công bố bởi DBLP Compuer Science Bibliography Dữ liệu trong
tập dữ liệu này được trích xuất vào ngày 08 thang 1 năm 2011 Mỗi một mục dit liệu trong tập dữ liệu DBLP gồm có 6 thông tin khác nhau: Tên bài báo, các tác giả, tạp chí công bó, các trích dẫn, năm công bố, tóm tắt nội dung bài báo.
Mỗi mục dữ liệu trong tập dữ liệu DBLP có cấu trúc như sau:
#* Tên bài báo
Trang 7#@ Danh sách tác giả cách nhau bởi dau phẩy #t Năm công bố
#c Nơi công bồ thường là các tạp chí #index 00 Số thứ tự của bài báo
#% Số hiệu của các bài báo được trích dẫn trong bài báo này (mỗi một trích dan được trình bày trên một dòng riêng biệt)
#! Tóm tắt nội dung bài báo (tóm tắt bài báo được trình bày trong một
Tập dữ liệu trên về các bài báo khoa học có 1.397.240 bài báo với 1.062.624
tác giả, 16.442 tạp chí, 3.021.489 trích dẫn.
1.2 Các mối liên kết giữa các bài báo khoa học
Các yêu tố tham gia vào việc xây dựng các chỉ sỐ hoạt động khoa học của các tác giả và các chỉ số phân cụm các bài báo bao gồm không những nội dung của bài báo đó mà còn phụ thuộc rất nhiều vào các mối liên kết giữa các bài báo tiềm ân trong cơ sở dữ liệu các bài báo Các liên kết này bao gồm: liên kết trích dẫn, liên kết đồng tác giả, liên kết dựa trên từ khóa, v.v Thông qua các liên kết khác như các các liên kết về từ khóa, liên kết về đồng tác giả, v.v sẽ làm cho một bài báo dé dang
được nhiều người đón đọc và có thể sẽ trở thành bài có trích dẫn nhiều trong tương lai Luận văn tập trung nghiên cứu khai thác các mối liên kết kiểu mạng xã hội này
trong việc xây dựng độ do phân cụm các bài báo.
1.2.1 Mạng liên kết tác giá và đồng tác giả trong cộng dong nghiên cứu
Trong mạng tác giả và đồng tác giả, mỗi nút mạng là một bài báo khoa học, hai nút mạng có một liên kết với nhau nếu chúng có chung một tác giả, hai nút sẽ có
n liên kêt với nhau nêu chũng có chung n tác giả.
Trang 8Hình 1.2: Hai bài báo có chung hai tác giả
Trong mạng trích dân các bài báo, môi nút mạng là một bài báo, các nút
mạng có quan hệ với nhau thông qua việc trích dẫn nội dung của nhau Như vậy,
trong mạng trích dan nội dung các bài báo, hai nút mạng chỉ có một môi quan hệ
duy nhất Cau trúc mạng như vậy tương đương với một đơn đồ thị có hướng.
Trang 91.2.3 Mạng hiên kết giữa các bài báo có cùng hướng nghiên cứu.
Sự tương đồng về nội dung giữa các bài báo thông thường được thể hiện qua hai yếu tố, thứ nhất là các trích dẫn nội dung sử dụng trong bài báo, thứ hai là các từ
khóa xuất hiện trong bài báo.
Hai bài báo bất kỳ có thể không có chung từ khóa nào, cũng có thể có chung nhiều từ khóa, tương ứng với hai nút mạng từ khóa có thể không có liên kết nào mà
cũng có thê có nhiêu hơn một liên kêt.
Từ phân tích trên ta thay mối liên hệ giữa các nút mang trong mang từ khóa
không phải là mọi liên kết đều có ý nghĩa như nhau, mà có liên kết được coi là quan
trọng, có liên kết kém quan trọng hơn Như vậy mạng các từ khóa giống như một đa
đô thị mà moi một cạnh của nó đêu có trọng sô riêng biệt.
Trang 101.3 Xây dựng cơ sở dữ liệu về bài báo khoa học cho các chương trình
thử nghiệm
Tập dữ liệu đã thu thập được xử lý và lưu trữ trong hệ quản tri cơ sở dữ liệu
Microsoft SQL dé phục vụ cho các truy vấn thông tin được nhanh chóng Tập dữ liệu được phân tích và lưu trữ trong 7 bảng gồm: Papers, Keywords,
PaperKeywords, Refs, Authors, Publications, Stopwords.
Bảng Stopwords không được xây dựng từ trong tập dữ liệu đã thu thập mà
được lấy từ địa chỉ:
Hình 1.6: Sơ đồ liên kết thực thé của chương trình
Với cơ sở dữ liệu đã xây dựng như trên, chúng ta có thé lay được đầy đủ các
thông tin về các bai báo khoa học, các môi liên kêt giữa chúng như: môi quan hệ tác
Trang 11giả và đông tác giả, môi quan hệ giữa các tạp chí khoa học, môi quan hệ trích dẫnthông tin của các bài báo, môi quan hệ giữa các bài báo có cùng hướng nghiên cứu
dựa trên nội dung bài báo.
1.4 Kết luận
Trang 12CHƯƠNG 2- MỘT SÓ KỸ THUẬT SỬ DỤNG CHO PHAN LOẠI BAI BAO KHOA HỌC
2.1 DO tuong tu
2.1.1 Tổng quan về độ tương tự
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là khoảng cách)
thuộc phạm vi toán học, chang hạn trong lý thuyết tôpô và xấp xi; nhưng trong khoa
học máy tính và các ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và không theo thé thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự
tương tự” xuât hiện ở nhiêu dạng, diễn xuất và ứng dụng.
Khái niệm “sự tương tự” có nhiều dạng khác nhau Bat chap những khác
biệt, chúng đều có điểm chung: “Sự tương tự” được sử dụng để so sánh hai (hay
nhiều) đối tượng, hai hoàn cảnh, hai van dé, v.v với nhiều nguyên do khác nhau.
Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp
sau đó được thực hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết Vì lí do đó, hai đối tượng được đem so sánh có những vai trò khác nhau Đối tượng thứ nhất đã được xem xét và được gọi là vấn đề (Problem) Déi tượng thứ hai là đã biết
và đã lưu thường được gọi là bản mẫu (Prototype) hay tình huống (case).
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết van dé, nồi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình huống CBR (case-base Reasoning), và nhận dạng mẫu (Pattern
Recognigation) Chúng có liên hệ với nhau và không có ranh giới rõ ràng giữa phép
loại suy và các phương pháp khác Lập luận dựa theo tình huống (CBR) là một cách
rất tong quát dé giải quyết van dé bằng cách sử dụng các kinh nghiệm trước đó Những kinh nghiệm này được ghi lại trong một cơ sở dữ liệu gọi là kho tình huống.
Trang 13Độ do tương tự là một trong những phương pháp tốt dé máy tinh phân biệt
được các văn bản qua nội dung của chúng Xét theo khía cạnh nào đó, độ tương tự
càng lớn, khả năng hai văn bản được nói vê cùng nội dung càng nhiêu.
2.1.2 Khái niệm độ tương tw
Nhiều độ đo tương tự đã được đưa ra, chăng hạn như nội dung thông tin
(Resnik, 1995b), độ đo thông tin chung (mutual information — Hindle, 1990), độ do
dựa trên khoảng cahs (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương
phan (Tversky, 1977) McGill etc đã khảo sat và so sánh 67 độ đo độ tương tự đã sử
dụng trong tìm kiếm thông tin (McGill et al., 1979).
Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:
e Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ lý thuyết thông tin Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xác suất Từ đó lý thuyết xác suất cso thể được tích hợp với nhiều loại thé hiện của tri thức, chăng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl,
1988), định nghĩa của chúng ta về độ tương tự có thé được áp dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước Hơn nữa, tính phổ biến của định
nghĩa còn cho phép độ đo được sử dụng trong lĩnh vực không có giả định trước,
chăng hạn như độ tương tự giữa các giá tri có thứ tự.
e Tính giả định (Theoretical Justification): độ đo độ tương tự không được
định nghĩa một cách trực tiếp bởi công thức Hơn nữa, nó được phân phát từ một tập các giả định về độ tương tự Mặt khác, nếu các giả định được cho là hợp lý, độ đo độ tương tự cần thiết phải xảy ra.
a) Định nghĩa độ tương tự
Mục đích của luận văn là cung cấp định nghĩa chính thức về khái niệm độ tương tự, đầu tiên luận văn đưa ra các trực giác (intuitions) về độ tương tự.
e Trực giác 1: Độ tương tự giữa A và B có liên quan đến sự tương đồng của chúng Sự tương đồng càng nhiều, độ tương tự càng lớn.
Trang 14e Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác
biệt giữa chúng Càng nhiều sự khác biệt, độ tương tự càng thấp.
e Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt đước khi A và B giống hệt nhau ( được gọi là sự đồng nhất — identical).
b) Độ tương tự giữa các giá trị có thứ tự ưu tiên
c) Độ tương tự chuỗi
d) Độ tương tự ngữ nghĩa
2.2 Khảo sát các phương pháp phân loại tài liệu phố biến
Các kỹ thuật phân cụm có nhiều cách tiếp cận khác nhau, nhưng chúng đều hướng đến mục tiêu là chất lượng của các cụm và tốc độ phân cụm Các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính như sau:
Phương pháp phân cụm phân hoạch: Kỹ thuật này phân hoạch một tập dữ
liệu có n phần tử thành k nhóm cho đến khi số các cụm được thiết lập là các đặc trưng được lựa chọn trước Một số thuật toán phân cụm dữ liệu phân hoạch điển
hình như: K-means, PAM, CLARA, CLULARANS
Phương pháp phân cum phân cấp: Là kỹ thuật sắp xếp một tập dit liệu đã cho thành một cấu trúc có hình dạng cây, cây phân cấp được xây dựng theo kỹ thuật đệ quy Cây phân cụm này có thể được xây dựng theo hai phương pháp: Phương pháp từ trên xuống và phương pháp từ dưới lên.
Phương pháp phân cụm dựa trên mật độ: Phương pháp này thực hiện việc
nhóm các đối tượng theo hàm mật độ xác định Mật độ ở đây được hiểu là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngưỡng nào đó Trong cách tiếp cận này, khi một cụm dữ liệu đã được xác định thì nó tiếp tục được phát
triểnthêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận của đối tượng
này phải lớn hơn ngưỡng đã xác định Một số thuật toán phân cụm dựa trên mật độ có thé kế đến như: DBSCAN, OPTICS, DENCLUE
Trang 15Phương pháp phân cụm dựa trên lưới: Kỹ thuật phân cụm dựa trên mật độ
không thích hợp với các dữ liệu nhiều chiều, để giải quyết vấn đề này người ta sử dụng phương pháp phân cụm dựa trên lưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới dé phân cụm dữ liệu, phương pháp này tập trung áp dung cho các dữ liệu không gian Ưu điểm của phương pháp này là thời gian xử lý nhanh và độc lập với số các đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ
thuộc vào sô ô trong môi chiêu không gian của lưới.
Phương pháp phân cụm dựa trên mô hình: Phương pháp phân cụm dựa
trên mô hình cố gang thực hiện khớp giữa dữ liệu với mô hình toán học, nó dựa trên
giả định rằng dữ liệu được tạo ra bang hỗn hợp phân phối xác suất cơ bản Các thuật
toán phân cụm dựa trên mô hình có hai tiếp cận chính là Mô hình thống kê và Mạng
Phương pháp phân cum có dữ liệu ràng buộc: Sự phát triển của phân cum dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải
được thỏa mãn trong quá trình phân cụm.
Phương pháp phân cụm dựa trên phân hoạch của đồ thị: Trong thực tế các dữ liệu có liên quan với nhau và kết hợp với nhau tạo thành một mạng hay ta còn gọi là một đồ thị (đồ thị có thể có hướng, vô hướng, có trọng số hay không có
trọng số) Thuật toán điển hình trong phân hoạch đồ thị là thuật toán Markov
2.3 Các phương pháp đo độ tương tự
Phân cụm yêu cầu phải định nghĩa được một khoảng cách cái mà sẽ gán một giá tri số ở mức độ khác biệt giữa hai văn bản và có cách thuật toán phân cụm sử dụng để tạo nên các nhóm khác nhau của một tập dữ liệu cho trước Không một biện pháp tính toán khoảng cách đơn nào là tối ưu cho tất cả các kịch bản cần thiết