Luận văn thạc sĩ Khoa học máy tính: Rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

Từ nhữngcải tiễn tập các cụm từ khóa ban đầu, đề tài cho thay rang hiệu suất của SemiRankcải thiện rõ rệt trong trường hợp đánh giá lại tập các cụm từ khóa ban đầu thông quamối quan hệ n

Trang 1

ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYEN KIM HUYEN

Chuyén nganh: Khoa Hoc May Tinh

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP HO CHI MINH, tháng 11 năm 2013

Trang 2

Cán bộ hướng dẫn khoa học: GS.TS Cao Hoàng Trụ - ¿2 2 252 2 sec cezeseceei

Cán bộ chấm nhận xét 1: GS.TS Phan Thị Tươi - ¿<2 SE SE xe £eE+EseesrsesersedCán bộ chấm nhận Xét 2: - C22272 222212158 E5158 1813151581111 55E5158E1E5151 E1 E1EeEErkd

Luận văn thạc sĩ được bảo vệ tại: Truong Đại Hoc Bách Khoa, DHQG TP HCMngày 25 tháng 12 năm 2013

Thanh phan Hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS.TS Quản Thành Thơ - - - - + + 1 gà2 TS Nguyễn Hứa Phùng 2E E222 3011112530111 1192305110511 11970 HH1 ngư3 GŒS.TS Phan Thi TƯƠI - - c1 121 9 TH TH vn

A TS H6 9n

5 GS.TS Cao Hoàng Tru ou cece seesesccececeeeececsesesesssnecececececeeeeesesessssesaaaeeeeeeeeceseseseegeaes

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành saukhi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA

Trang 3

ĐẠI HỌC QUOC GIATP.HCM CỘNGH A XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯƠNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIEM VỤ LUẬN VĂN THẠC SĨHọ tên học viên: NGUYEN KIM HUYẺẼN MSHV: 11070455

Ngày, thang, năm sinh: 16/07/1963 «<< <5 Nơi sinh: Biên Hoa- DN

Chuyên ngành: KHOA HOC MAY TÍNH - Mã số : 604801 I TÊN DE TÀI:_ 2 SE SE 1 1T TỰ 5111 T 5 H111 11 H111 T11 1 Hi

Rút trích các cụm từ khóa dựa trên vai trò và đặc điêm của các cụm từ trongVAN s;)sšPHiiiaaầaađađẳaẳđaiẳadđẳaẳầđáaiẳđaâađaadidadaddẳŸŸŸŸŸẢ H NHIỆM VỤ VÀ NỘI DUNG:_ G22 n1 1S H HH HH ưu

HI NGÀY GIAO NHIEM VU : 02/07/2012 5< 2 SE 2E SE E21 1 2E 1E credIV NGÀY HOÀN THÀNH NHIỆM VỤ:21/06/2013 c- 25555 22c xe rerseoV CÁN BỘ HƯỚNG DÂN: GS TS CAO HOANG TRỤ - 2 55c ccsea

Tp HCM, ngày thang năm 20 CÁN BỘ HƯỚNG DÂN TRƯỞNG KHOA

(Họ tên và chữ ký) (Họ tên và chữ ký)

Trang 4

Tôi xin chân thành cam ơn gia đình tôi, những người luôn yêu thương, ung hộ vatạo mọi điêu kiện đê tôi hoàn thành tôt việc học tập và nghiên cứu của mình.

Xin chân thành cảm ơn thay, GS.TS Cao Hoang Trụ Những lời khuyên bổ ích vàsự chỉ dẫn tận tình của thây đã giúp tôi hoàn thành tốt luận văn này

Xin chân thành cam ơn những người bạn của tôi, những người luôn lăng nghe va

đóng góp ý kiến trong suốt thời gian thực hiện luận văn.Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thay cô tạitrường Đại học Bách khoa, đặc biệt là các thay cô trong khoa Khoa hoc và Kỹ thuật

Máy tính.

Trang 5

LỜI CAM ĐOANTôi xin cam đoan răng, ngoại trừ các kết quả tham khảo từ các công trình khác như

đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi

thực hiện và chưa có phan nội dung nào của luận văn này được nộp dé lay bằng cấp

ở một trường khác.

TP.HCM, tháng 11 năm 2013

Nguyễn Kim Huyền

Trang 6

liệu Có hai hướng tiếp cận chính trong các hệ thống rút trích các cụm từ khóa:

hướng học máy giám sát và hướng học máy không giám sát Nhưng trong cả hai

hướng, đặc điểm quan hệ ngữ nghĩa giữa các cụm từ vẫn chưa nhận được sự quantâm day đủ Mục tiêu của dé tài là cải tiến hiệu suất của SemiRank, một phươngpháp đánh giá vai trò của các cụm từ dựa trên mỗi quan hệ ngữ nghĩa và tập cáccụm từ khóa ban dau Dé tài đề xuất hai phương pháp để cải tiến tập khóa ban đầunày: phương pháp cụm từ trọng tâm và phương pháp đặc điểm thông tin Từ nhữngcải tiễn tập các cụm từ khóa ban đầu, đề tài cho thay rang hiệu suất của SemiRankcải thiện rõ rệt trong trường hợp đánh giá lại tập các cụm từ khóa ban đầu thông quamối quan hệ ngữ nghĩa giữa chúng với nhau Các kết quả thực nghiệm được đánhgiá trên tập Wiki-20 và so sánh với một số phương pháp rút trích cụm từ khóa đãcó Hai phương pháp đề xuất đều cải tiến hiệu suất của SemiRank và cho kết quả tốt

hơn những phương pháp so sánh.

SUMMARY

Keyphrases are single or multiple words summarizing the main contents of adocument There are two main approaches for keyphrase extraction: supervised andunsupervised learning However, semantic relations between phrases have not beenadequately considered in both approaches In this thesis, we proposed two methodsto improve performance of SemiRank, an approach to extract keyphrases based oninitial keyphrases and semantic relations between phrases in the document The twomethods are: Core Phrases and Information Features methods Our methodsoutperform SemiRank with intitial keyphrases from title and two derivatives ofKEA and KEA++ on Fl measure In addition, we show that, the new methods givebetter results to SemiRank in the case that initial keyphrases are re-ranked based ontheir semantic relations.

Trang 7

NỘI DUNG

Chương 1 MO ĐẦU - - 2< 1 1212111151111 11 11151110101 111101010 21011 |

L.1 Xác định bài tOán 7 Sn Q33 0300 0111101111111 111 1 xe l1.2 Mục tiêu và phạm VI + c + 930101010 10 11111111111 11 1n nhà 2

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN - 2252 c+22< 2 +£+xzxcerscee 42.1 Tổng quất :S:ScSS 1 1232115 51111111 511111 110101 1101010107 111111 grrkg 42.2 Các đặc điểm của cum từ khóa nói ChUnØ - cv 5Chương 3 CO SỞ LÝ THUYET ¿2522252 E+E*E£E££ESE*EE£E£zEzEeErxrxrecee 10

3.2 Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhăng 123.3 Siêu d6 thị (hyper-graph) - -s 2s 1212212212110 021 1 ng rung 153.4 Nhóm theo chủ đề (COMMUNILY) - 2 2222211121211 11112 111118111 kreg 17Chương 4 PHƯƠNG PHAP DE XUAT 5-5522 E2 SE £E£2EzEcErszxrecee 18

Al SemilRankK 0 ni ke 184.2 Phuong pháp cụm từ trong fâm - - - S11 1 19 1 1 1 vế 25

43 Phuong pháp sử dụng đặc điểm thông tin của cụm từ khóa 28AA Tiền xử lý dữ liệu đầu vàO - - + k1 TT HT HT ky 29

Chương 5 THỰC NGHIỆM G c5 2213221 E21 E2 1 2211 1 111 cv 32

ÔN (+3 325.2 Phương pháp đánh giá .- - 5< << c9 ng ve 325.3 Hiện thực các phương pháp) - - - ng re 35° Hiện thực SemiRanK - - - 1 111111111 S 1S 11111 15111111211 11111111111 k khen ra 36

Trang 8

5.3 Đánh giá hiệu QUẢ 2 2 25 5 5 1103001501010 010 re 39

° Xác định số lượng cụm từ khóa ban đầu S22 2212 2 Hy 39° Hiệu quả khi kết hợp với mối quan hệ ngữ nghĩa trong SemiRank 42

° So sánh với các phương pháp khác - 1 2122221123213 Esrxed 43° Sử dụng phương pháp phân nhóm Walktrap cece eee 44

Chương 6 TONG KẾTT L CS E262 E 11132515 1111111112111 11 01010 1111111 re 46

3x Or: Leak 6 on ae LŒHAĂŒ 46

6.2 Hướng phat triỂn ¿<5 E222 SE 111 1 1 515111 115111111111 re 46THAM KHẢO coscecccccccccccccssceseccsssssesscecsscecsssessccsssecssssesssscusscessssessssesssseesssestaseesess 48

Trang 9

DANH MỤC HINHHình 3.1 Ví dụ về các thành phan trong Wikipedia 5555 55c cccseseeeescei 11Hình 3.2 Ví dụ về biểu diễn siêu đồ thi G1 - 5 6+ 23k seEseEsksseseed l6

Hình 4.1 Quy trình rút trích cụm từ khóa trong SemiRank -« << «<<: 18Hình 4.2 Giải thuật PhraseRank trong SemiRank 5c ẶcSSssssssss+ss2 22

Hình 4.3 Minh họa một số bước lặp trong giải thuật PhraseRank 23Hình 4.4 Quá trình rút trích tập các cụm từ khóa ban dau trong phương pháp cụm

Hình 5.1 Đồ thị biểu diễn hiệu suất thu được khi sử dụng phương pháp cụm từ

00:58 0202217 dd 40

Trang 10

Bang 2-1 Các đặc điểm được sử dụng trong một số hệ thong rut trích cum từ khóa 9Bang 3-1 Trọng lượng của các kiểu liên kết khác nhau - 225255525: 13Bang 5-1 Hiệu suất của SemiRank khi sử dung tiêu dé và sử dung phương pháp

Trang 11

Chương 1 MO DAU

1.1 Xác định bai toánCum từ khóa là những từ hay cụm từ có nghĩa đại diện cho nội dung tóm tat của tàiliệu Vì diễn tả nội dung chính của tài liệu, những cụm từ khóa này có thể được sửdụng trong các công cụ tìm kiếm như 1a trở thành siêu dữ liệu (metadata) để giúpngười sử dụng dự đoán nội dung của tài liệu và từ đó tìm kiếm được bài viết có nộidung phù hợp [9] Các cum từ khóa này cũng có thé được dùng để gom nhóm vàphân loại các tài liệu vào các chủ đề khác nhau [6] Chúng cũng có thé được dùngđể xây dựng các bộ từ điển đồng nghĩa (thesaurus) [19]

Cùng với sự phát triển của công nghệ thông tin, số lượng các tài liệu điện tửngay càng nhiều nhưng ít trong số chúng được tác giả gan các cụm từ khóa Thêmvào đó việc gan các cum từ khóa băng tay là một công việc đòi hỏi nhiều thời gianvà công sức, vì thế, các công cụ gán tự động trở thành một lựa chọn mang lại nhiều

hứa hẹn.

Có hai hướng tiếp cận chính để giải quyết bài toán này: hướng sử dụng cáccụm từ thuộc một bộ từ vựng được kiểm soát (controlled vocabulary) làm khóa vàhướng rút trích các cụm từ khóa từ trong nội dung của văn bản Trong hướng tiếpcận thứ nhất, các cụm từ khóa là các từ vựng trong bộ từ vựng được kiểm soát Bộtừ vựng kiểm soát bao gồm những cụm từ được chọn lựa kỹ lưỡng, mỗi cụm từ diễntả một khái niệm duy nhất nào đó Khi chọn khóa cho tài liệu, những cụm từ này sẽ

được xem xét Bộ từ vựng kiểm soát giúp bảo toàn tính đồng nhất giữa các cụm từ

khóa của các tài liệu khác nhau Bộ từ vựng kiểm soát thường được tạo ra cho mộtlĩnh vực (domain) cụ thể nào đó và có kích thước giới hạn Ví dụ như MeSH! là một

“http://www.nlm.nih gov/mesh

Trang 12

Hướng tiếp cận thứ hai là rút trích các cụm từ khóa từ trong nội dung của vănbản So với hướng tiếp cận thứ nhất những cụm từ được chọn làm khóa không bịgiới hạn Nhưng như vậy không có sự đồng nhất giữa các cụm từ khóa được chọngiữa các tài liệu khác nhau Ở đây dé tai quan tâm đến những phương pháp rút trích

các cụm từ khóa từ trong nội dung của tài liệu.1.2 Mục tiêu và phạm vi

Dé xác định được tập các cụm từ khóa đại diện cho nội dung tóm tắt của tài liệu, đềtài đã kết hợp những đặc trưng của những cụm từ khóa với ngữ nghĩa Cụ thể, đề tàixây dựng một tập các cụm từ khóa ban đầu dựa vào các đặc trưng của khóa, sau đótiến hành đánh giá vai trò cụm từ khóa của chúng bằng cách xem xét mối quan hệ

ngữ nghĩa của chúng với nhau.

Bằng cách sử dụng lại phương pháp đánh giá ngữ nghĩa trong SemiRank, trongphạm vi của minh, đề tài xây dựng lại tập các cụm từ khóa ban đầu cho nó dựa vàocác đặc trưng khác nhau của cụm từ khóa Hai phương pháp được đề xuất là:phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của

cụm từ khóa.

SemiRank rút trích các cụm từ trong tiêu đề và coi chúng là các cụm từ khóaban đầu cũng như là cụm từ khóa sau cùng, sau đó tìm kiếm thêm những cụm từkhóa còn lại từ trong văn bản mà những cụm từ khóa này có mối quan hệ ngữ nghĩaphù hợp với các cụm từ khóa ban đầu đã cho Trong khi đó, dé tài mở rộng tập từkhóa ban đầu và đánh giá lại vai trò của các cụm từ khóa ban đầu này thông quamối quan hệ ngữ nghĩa của chúng với nhau Như thế tập các cụm từ khóa sau cùngđại diện cho văn bản vừa có đặc trưng của việc là cụm từ khóa ban đầu và vừa có

đặc trưng ngữ nghĩa.

Trang 13

Khi xử lý tiên dữ liệu, các cụm từ đi qua một bước lọc liên quan dén việc gancụm từ vào các bài viet Wikipedia tương ứng với chúng Nên ở đây, có sự ràngbuộc vào Wikipedia Mặc dù Wikipedia có kích thước lớn nhưng nó vân nhỏ hơn sôlượng cụm từ có trong ngôn ngữ tự nhiên.

Trong phương pháp cụm từ trọng tâm, đề tài sử dụng một số mẫu là các từtrong tiếng Anh, nên phương pháp này chỉ áp dụng được cho các tải liệu có ngônngữ là tiếng Anh

Trang 14

Dé rút trích các cum từ khóa thích hop, các hệ thông thường tiễn hành qua hai bước

sau: rút trích các cụm từ có trong văn bản làm khóa tiềm năng và lọc ra từ các cụm

từ khóa tiém năng này những cụm từ thích hợp làm khóa Chương này trình bàykhái quát về các hệ thống rút trích cum từ khóa Mục 2.1 mô ta tổng quát về các hệthong nói chung Mục 2.2 nêu lên các đặc điểm được sử dụng để lọc ra các cụm từ

khóa.

2.1 Tổng quát

Như đã nói ở trên, các hệ thông rút trích các cụm từ khóa thường trải qua hai bước:rút trích các cụm từ khóa tiềm năng và lọc lấy các cụm từ khóa Có nhiều phươngpháp khác nhau để tìm kiếm các cụm từ khóa tiềm năng trong nội dung văn bản.Cách đơn giản và phổ biến nhất là n-gram [3,5, 11, 23], cat tuần tự n từ don đứngkế tiếp nhau và coi nó là khóa tiềm năng Nhược điểm của phương pháp này là cáctừ đơn đứng kế nhau không phải lúc nào cũng tạo thành cụm từ có nghĩa

Đề khắc phụ nhược điểm trên, phương pháp lay theo mẫu (POS pattern) đượcsử dụng [5, I8], các cầu trong văn bản được đưa qua một bộ phân tích cú pháp déxác định từ loại của nó va chỉ những cum từ nào trong câu thỏa mãn các mẫu từ loạimới được chọn làm cụm từ khóa tiêm năng.

Trong những năm gan đây, cùng với sự lớn mạnh của Wikipedia, các cụm từtrong văn bản còn được gán với các bài viết trong Wikipedia (article) |4, 8, 14], cácbài viết này đại diện cho ngữ nghĩa của cụm từ Chỉ những cụm từ có khả năng tìmthay một hay nhiều bài viết tương ứng với nó mới được chọn làm cụm từ khóa tiềm

năng.

Một khi đã có được tập các cụm từ khóa tiềm năng, để có thể chọn ra được các

cụm từ thích hợp làm khóa, các hệ thống tự động thường sử dụng những đặc điểm

được cho là nên có ở một cụm từ khóa dé xây dựng nên bộ lọc Những đặc điêm

Trang 15

này có được do sự đúc kết từ những quan sát trên các tập khóa được thực hiện bang

tay.

Tuy theo từng hệ thông khác nhau mà việc khai thác các đặc điểm này là khácnhau, mỗi hệ thống sẽ chú trọng một số đặc điểm được cho là nồi bật hơn cả va bỏqua những đặc điểm khác Có thể chia các hệ thống này thành hai nhóm chính:

nhóm sử dụng phương pháp học có giám sát (marchine learning) và nhóm sử dụngphương pháp hoc không có giám sát (unsupervised learning) Nhóm sử dụng

phương pháp học có giám sát [5, 11, 14, 23] sử dụng một tập dữ liệu huấn luyện(training data) để xây dựng nên mô hình học máy Tập dữ liệu huấn luyện này baogôm các tài liệu đã có sẵn các cum từ khóa được gan bang tay Những mô hình họcmáy thường được áp dụng là mô hình Naive Bayes [18, 23] hay cây ra quyết định(decision tree) [11, 14, 18] Nhược điểm của phương pháp nay là đòi hỏi tập dữ liệuhuấn luyện phải lớn [14]

Hướng tiếp cận học không có giám sát: những hệ thống của nhóm này khôngđòi hỏi phải có tập huấn luyện ban đầu, [1, 3, 24] xây dựng phương trình đo lườngtầm quan trọng của các cụm từ tiềm nang; [8, 15] biểu diễn nội dung của tài liệudưới dang đồ thị ngữ nghĩa từ đó xác định vai trò của một cụm từ thông qua các mối

quan hệ này.2.2 Các đặc điêm của cụm từ khóa nói chungCác đặc điểm dùng để đánh giá vai trò của một cụm từ trong tài liệu nhìn chung cóthể chia làm ba nhóm chính Nhóm đặc điểm từ năm trong cụm từ xem xét sự đónggóp của các từ đơn cho cụm từ mà nó thuộc về Nhóm đặc điểm thông tin của cum

từ xem xét cụm từ độc lập với các cụm từ khác, nó đánh giá vai trò của cụm từ

thông qua thông tin mà cụm từ đóng góp cho tải liệu Và cuối cùng là đặc điểm xem

xét môi quan hệ ngữ nghĩa giữa các cụm từ trong văn bản.

Trang 16

kết dính của các từ tron ø nó Đặc diém nay dung dé xác định mức độ cau thành cụmtừ của các từ trong nó Phép đo độ kết dính đo đạc trên khả năng các từ này đồngxuất hiện cùng với nhau trong một cụm từ Phép đo nảy dựa trên giải thiết là các

cụm từ có độ kết dính cao có kha năng trở thành cụm từ khóa.

Đặc điểm liên quan đến thông tin mà cum từ dong góp cho tài liệuĐây là nhóm được khai thác nhiều nhất trong các hệ thống rút trích từ khóa tự động.Ở day, dé tài chỉ nêu lên một số đặc điểm pho biến trong nhóm nay Đầu tiên phảikế đến là sự xuất hiện lặp lại của cụm từ, phép đo chính cua nó là TF (termfrequency — tầng suất xuất hiện của một cụm từ), TF dựa trên giả thiết là néu mộtcụm từ là quan trọng, nó sẽ được lặp lại nhiều lần trong nội dung của văn bản TFcó nhiều biến thể khác nhau, có thể được đo trên cả văn bản hoặc chỉ trên một phânđoạn nào đó của văn bản TF thường được kết hợp cùng IDF (Inverse documentfrequency — tan suất nghịch của một cum từ) để tránh trường hợp những cụm từđược lặp lại là những cụm từ quá phô biến, không diễn tả nội dung chính của tài liệuvà có thể tìm thay ở nhiều tài liệu khác, IDF đo số lần cum từ xuất hiện trong các tàiliệu khác nhau của một tập thống kê (corpus), vì thé IDF phụ thuộc vào tập thống kê

này.

Kế đến là đặc điểm vị trí của cụm từ, phép đo chính là phép do vi trí lần đầutiên cụm từ xuất hiện FOC (first of occurrence — vi trí lần đầu xuất hiện) Phép đonày dựa trên giả thiết là nếu cụm từ là quan trọng, nó sẽ được nhắc đến sớm trongnội dung của tài liệu Một biến thể của nó là phép đo vi trí lần cuối cùng cụm tuxuất hiện (last occurrence) và độ phủ cua cụm từ (occurrence spread) trong nộidung văn bản, độ phủ xác định khoảng cách giữa lần đầu tiên và lần cuối cùng cụmtừ xuất hiện Ngoài ra còn có thêm một dạng biến thể nữa đó là phép đo lần đầu tiêncụm từ xuất hiện tron ø một phân đoạn cụ thé của tai liệu ví dụ như trong phan tomtat hay phan gidi thiéu

Trang 17

Một đặc điểm cũng được sử dụng thường xuyên trong các hệ thống rút tríchcụm từ khóa đó là xem xét mức độ cụ thể mà một cụm từ diễn tả, phép đo đượcdùng là đo chiều dai của cum từ khóa Những cụm từ khóa bao gồm nhiễu từ gộp lạithường diễn tả ý cụ thể hơn là những cụm từ ngăn và vì thế có nhiều cơ hội làmkhóa hơn Nhưng chiều dài tối đa của cụm từ khóa thường không lớn hơn ba [23].

Đặc điểm kế tiếp là dựa trên phép đo keyphraseness Khi một cụm từ đã được

chọn làm khóa, thì nó cũng có khả năng được chọn làm khóa trong một tải liệu khác

có cùng chủ đề Keyphraseness đo đạc dựa trên số lần một cụm từ được chọn làm

khóa trong một tập thống kê Vì vậy, một cách tự nhiên, keyphraseness phụ thuộcvào kích thước và chủ đề của tập thống kê

Khi gán các bài viết Wikipedia cho các cụm từ để diễn tả nội dung của cáccụm từ này, một số đặc điểm mới đã được đề xuất, trong đó có Wiki-keyphraseness,Wiki-keyphraseness dựa trên giả thiết răng nếu cụm từ là quan trọng thì mỗi lần nóxuất hiện trong một bài viết Wikipedia nào đó, nó sẽ được gán một liên kết thamkhảo đến bai viết diễn tả ý nghĩa hoặc nội dung liên quan đến nó Một biến thé củaWiki-keyphraseness là tính Wiki-keyphraseness cho một bài viết Wikipedia thay vì

tính cho một cụm từ (inverse Wikipedia frequency).

Đặc điểm mối quan hệ ngữ nghĩa

Khi sử dụng mỗi quan hệ ngữ nghĩa để tìm khóa, một số hệ thống dựa trên giả

thiết rang những từ khóa sẽ giữ vai trò trung tâm, chúng được hỗ trợ về nghĩa cao

nhất bởi các từ có trong tài liệu [10, 15] định nghĩa mối quan hệ này bằng cách liên

kết những từ đơn cùng xuất hiện trong một cửa số (window) có kích thước cé định.Ctra số được chạy dọc nội dung văn bản và các liên kết tạo thành một đồ thị đạidiện cho nội dung của văn bản Liên kết tìm được có thể là liên kết ngữ nghĩa hoặcliên kết về từ (lexicon) Mục đích của TextRank [15] va DegExt [10] là tìm kiếmcác từ trọng tâm trong d6 thi và từ những từ don nay, các cum từ chứa chúng sẽ

được dùng làm khóa Trong khi đó, [11] xác định mỗi quan hệ ngữ nghĩa giữa haicụm từ khi chúng cùng xuất hiện trong một tài liệu Mối quan hệ ngữ nghĩa giữa hai

Trang 18

cụm từ còn lại thì có nhiều khả năng trở thành khóa.Maui [14] không coi cụm từ khóa là trung tâm nhưng nó có mối quan hệ ngữnghĩa cao với các cụm từ khóa khác Maui định lượng mối quan hệ ngữ nghĩa củahai cụm từ dựa vào số lượng bài viết Wikipedia chung ma hai bài viét dai dién chohai cum từ dang xét có liên kết tham khảo Mối quan hệ ngữ nghĩa giữa một cụm từvà các cụm từ còn lại được tinh và nó trở thành một đặc điểm dé xây dựng mô hình

học máy cùng với nhiêu đặc điêm khác như là vi trí hay sô lần lặp lại cua cụm từ.

Cũng giống như Maui, |4, 8] dựa vào các bài viết Wikipedia chung của hai bài

viết đại diện cho hai cụm từ cần định lượng mỗi quan hệ ngữ nghĩa, nhưng |4, 8]

gán tầm quan trọng khác nhau cho từng liên kết có được tại một bài viết và xét mốiliên hệ của hai bài viết thông qua trọng lượng của các liên kết chung này Ngoài ra[4 8] còn xác định các mối quan hệ ngữ nghĩa giữa một nhóm các cụm từ băng

cách phân nhóm cho các cụm từ này theo quan hệ ngữ nghĩa giữa chúng Tuy

nhiên, [4] đánh giá tầm quan trong của cả nhóm và coi mọi phan tử trong nhóm làcụm từ khóa [8] xem một cụm từ là khóa nếu nó có mối quan hệ ngữ nghĩa thích

hợp với tập các cụm từ khóa ban đâu.

Các đặc điểm trên được sử dụng kết hợp với nhau trong các hệ thống tự động.Ví dụ như sau khi chọn ra các cụm từ khóa tiềm năng, [18] đo đạc các đặc điểm TF,IDF, FOC và chiều dài cho các cụm từ tiềm năng trong van bản, ngoai ra còn có TFcho các từ đơn hoặc cụm từ con trong các cụm từ tiềm năng này để xây dựng môhình hoc máy cho việc phân loại cụm từ khóa Bang 2.1 liệt kê chi tiết đặc điểmđược sử dụng trong một số hệ thong rut trích cum từ khóa

Việc khai thác đặc điêm ngữ nghĩa van con là van đê đang được quan tâmtrong việc g1úp lọc ra các cụm từ khóa [7], nên ở day đề tài chú trọng dén môi quanhệ ngữ nghĩa giữa các cụm từ Cụ thê, dé tài khai thác môi quan hệ ngữ nghĩa có

Trang 19

trong [8] băng cách kết hợp một số đặc trưng khác của cụm từ khóa với nó như

được trình bày trong Chương 4.

Từ- Thông tin của cụm từ Cụm từ - Cụm từCụm từ

Bing 2-1 Các đặc điểm duoc sử dụng trong một số hệ thông rut trích cụm từ khóa

S: học có giám sat và U-học không có giám sát

Trang 20

Chương 3 CƠ SỞ LY THUYET

Chương 3 mô tả các khái niệm và phương pháp nên tảng được sử dụng trong đề tải:Wikipedia, định lượng mỗi quan hệ ngữ nghĩa, phân giải nhập nhang, siêu đồ thị vànhóm theo chủ dé

3.1 WikipediaWikipedia là dự án nhằm xây dựng một bách khoa toàn thư trực tuyến miễn phí chotất cả các ngôn ngữ trên thế giới Được thành lập năm 2001, đến nay Wikipedia làmột trong những trang trực tuyến được tham khảo nhiều nhất trên thế giới, khoảng470 triệu người tham khảo mỗi tháng, được tính cho tới tháng 2/2012 Đến tháng10/2013, Wikipedia có trên 30 triệu bài viết (article) trên 286 ngôn ngữ Trong đó,có hơn 4 triệu bài bang tiếng Anh

Cau trúc của Wikipedia bao gồm các thành phần như: các bài viết, liên kếttham khảo, thể loại của bài viét, Ở day, dé tai chi xin tom tat cdc thanh phan

chinh cua Wikipedia:

e Bai viết Wikipedia (article): bài viết là các thành phan chủ đạo của Wikipedia.Mỗi bài viết mô tả một khái niệm duy nhất nào đó Wikipedia đưa ra nhữnghướng dẫn về soạn thao dé dam bảo vẻ nội dung và hình thức của các bài viết.Tiêu dé là duy nhất cho mỗi bai viết, bên cạnh tiêu dé mỗi bai viết còn có mãđịnh danh(id) dé phân biệt nó với các bài viết khác

e Trang chuyển hướng (redirect): trang chuyển hướng là những trang không cónội dung, nó chỉ bao gồm một tham khảo để liên kết đến một trang khác (mộtbài viết hay một trang chuyển hướng mới) Bởi vì mỗi khái niệm chỉ được môtả bởi một bài viết duy nhất, nên những cụm từ diễn tả cùng một khái niệm cóthé được mô tả bằng những trang chuyển hướng này và chúng chứa liên kếttham khảo đến bài viết trình bày khái niệm

Trang 21

Liên kết (hyper-link): trong nội dung của bài viết, néu có một cụm từ nào đóquan trọng, tác giả bài viết được khuyến khích tạo ra một liên kết từ cụm từnày đến bài viết có nội dung liên quan Bài viết này có thể là mô tả khái niệmcủa cụm từ cũng có thé là chứa thông tin liên quan đến nó Cụm từ được tạoliên kết trên được gọi là cụm từ neo (anchor) Cùng một cum từ neo có thé liênkết đến các bài viết khác nhau, ví dụ 84% liên kết từ từ neo “7/2»rary”( “hưviện ”) dẫn đến bài viết “Library” (“Thư viện”), và 13% liên kết là dẫn tới bàiviết “Library (computing) ” (Thư viện (máy tinh)) [14]

Trang định hướng (disambiguation page): trang định hướng chứa các liên kếtđến những bài viết khác nhau diễn tả các nghĩa khác nhau có thể có của mộtcụm từ nào đó Tại đây người sử dụng chọn lựa nghĩa thích hợp mà họ muốn

tham khảo.

Thể loại (category): các bài viết thường được phân vào các thể loại liên quanđến nội dung mà nó dé cập Các tác giả bài viết được khuyến khích nên ganthể loại cho các bài viết Một thể loại có thể thuộc về một thể loại khác, điều

này hình thành nên câu trúc gan giông cau trúc cây cho các thé loại.

SàöG tà gindg Gà ` ““““”* Nuôi 0-6.) ;260ii0ibvtuii

! fibraries ¡ | liba , | ‘pibliotheca ` \ f reading ì buildings and civil culture library and

I i i I i ' ryh PÌ lí Iị room | structures services information

Hinh 3.1 Vi dụ về các thành phan trong WikipediaHình 3.1 là một ví dụ về các thành phần của Wikipedia [14] “L/brary”( “Thư

viện”) là một bài viết, nó có các trang chuyển hướng như “//jraries”(“các thưviện”), “Reading room” (“phòng đọc”) và nó có các liên kết đến các bài viết khác

như là “Book”(“sách”), “Bookend” (“giá sách”) Bai việt “Library” thuộc về thê

Trang 22

loại “Libraries”, thê loại này vừa là thê loại con của các thê loại: “Library andinformation science” (“the viện và khoa học thông tin”), “Buildings andstructures” (“toa nha và cẩu tric’’) , vừa có các thê loại con như: “Digital

z

Ad)

libraries” (“thu viện so”), “Academic libraries” (“thu viện học thuat”).

Ban Wikipedia được sử dung trong dé tai là ban được công bố ngảy22/07/2011 Ban Wikipedia nay chỉ bao gồm các bài viết băng tiếng Anh Số lượngbao gồm khoảng 3.5 triệu bai, 5 triệu trang chuyển hướng (redirect) và khoảng700,000 thé loại (category)

3.2 Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhangCó nhiều cách khác nhau để định lượng mỗi quan hệ ngữ nghĩa giữa hai cụm từ, ở

đây, dé tài chỉ xin trình bày phương pháp dựa vào Wikipedia Cụ thé hon, là phươngpháp được nêu trong [22], đo đạc mối quan hệ ngữ nghĩa giữa hai bài viếtWikipedia đại diện cho hai cụm từ đang xét [22] không bao gồm phương pháp gánbài viết Wikipedia đại diện cho ngữ nghĩa của từ mà chỉ dé xuất phương pháp để đolường mối quan hệ giữa hai bài viết này Phương pháp đo đạc được tóm tắt nhưphân trình bày tiếp theo sau đây

Mỗi bài viết Wikipedia bao gồm các liên kết đi (outgoing link) và các liên kếtđến (incoming link) Ở đây chỉ tính đến những liên kết xuất phát hoặc dẫn đến mộtbài viết Wikipedia Đề một bài viết được tham khảo đến một bài viết khác thì cácbài viết này phải có nội dung liên quan đến nhau, [22] nhận thay rang sự tham khảonày sẽ có những mức độ khác nhau tùy theo kiểu liên kết Vì vậy, [22| đã gán cáctrọng lượng khác nhau cho các kiểu liên kết đến và liên kết đi thuộc một bài viết

Wikipedia như sau:

e Liên kết “Xem thêm” (See Also): hau hết các bài viết Wikipedia đều có mộtphân đoạn dành để liên kết với những bài viết có nội dung liên quan đến nó gọilà “Xem thêm” (See Also) Một liên kết năm trong phân đoạn này (gọi là liênkết trong “Xem thêm”) thì được gán giá trị cao nhất, băng 5 Và ngược lại,

Trang 23

nếu liên kết đến bai viết này lại thuộc vào phân đoạn “Xem thêm” của một baiviết Wikipedia nào đó (gọi là liên kết từ “Xem thêm”) thì liên kết cũng đượcgán giá trị tương xứng, bằng 2

e => Liên két hai chiêu: nêu liên kêt đi của một bài việt Wikipedia dân đền một baiviet Wikipedia khác mà tại đó cũng có một liên kêt chiêu ngược lại đên bai

viết này (gọi là liên kết hai chiều) thì liên kết cũng được gan gia tri bang 2.e Liên kết cùng một thé loại: liên kết là cùng một thể loại nếu bài viết Wikipedia

chứa liên kết tham khảo va bài viết Wikipedia được tham khảo đến thuộc cùngmột thể loại Ở đây không phân biệt liên kết đi hay liên kết đến Những liênkết này được gan giá tri bang 1.5

e Liên kết ngày và liên kết thuộc bản mẫu (template): liên kết ngày là liên kếtmà nó dẫn tới một bài viết mô tả một thời điểm nao đó tính theo thời gian Vidụ: bài viết “7977? mô ta các sự kiện quan trọng diễn ra trong năm 1977 Vàliên kết thuộc bản mẫu là liên kết năm trong một bản mẫu nào đó Các bài viếtcó nội dung liên quan đến nhau thường sử dụng chung một số bản mẫu, như làđể thống nhất văn phong hay cách trình bày Cả hai loại liên kết này nhận giátrị thấp nhất, băng 0.1

e — Liên kết tham khảo: tất cả liên kết đi còn lại được gan giá trị bang 1 và tất cảliên kết đến còn lại được gán giá trị băng 0.5

Bảng 3.1 tóm tắt giá trị được gán cho các kiểu liên kết khác nhau

Bing 3-1 Trọng lượng cua các kiểu liên kết khác nhau

Trang 24

Mối quan hệ ngữ nghĩa giữa hai bài viết được đo bang các liên kết chung màhai bài viết này có với nhau (bao gồm cả liên kết đi và liên kết đến) Ở đây, [22] ápdụng phép do Dice có trọng lượng, mối quan hệ ngữ nghĩa được tính dựa trên trọnglượng của những liên kết chung của hai bài viết Trong phần mô tả phương phápcủa mình, [22] đã không mô tả phép tính chỉ tiết, nên đề tài đã tính theo công thức

sau:

3re(A;nA,)(WA,(t)+wa, Œ))Led; WA; (t)+ ST Wa; (t)Trong đó Aj, A; là các bài viết Wikipedia đang xét Wa, (t) là trọng lượng củaliên kết ¢ trong bai viết Aj

Nếu trong quá trình gán bài viết Wikipedia đại diện cho ngữ nghĩa của mộtcụm từ nào đó mà có thể tìm thấy hơn một bài viết Wikipedia có khả năng đại diệncho nó, thì ở đây ta có một dạng của bài toán nhập nhang, lúc này cần chon ra bàiviết nào là thích hợp nhất cho cum từ đang xét Dé giải quyết van dé này, người tathường sử dụng nội dung của văn bản nơi cụm từ đó xuất hiện, tìm kiếm những cụmtừ không nhập nhang xung quanh cụm từ đang xét làm ngữ cảnh, từ đó xem xét tatcả các nghĩa có thể của cụm từ đang xét Cụm từ không nhập nhăng là những cụmtừ mà chỉ tìm thấy duy nhất một bài viết Wikipdia cho nó Lúc này, từng bài viết

Wikipedia được giả định là đại diện cho nghĩa cua cụm từ đang xét và từ đó tính

toán mối quan hệ ngữ nghĩa với ngữ cảnh của nó Bài viết Wikipedia giả định nàocó mối quan hệ tốt nhất với ngữ cảnh thì nó được chọn đại diện cho nghĩa của cụmtừ [22] đề xuất sử dụng phương pháp đo lường ngữ nghĩa như đã nêu ở trên dé tìmkiếm bài viết Wikipedia thích hợp cho cụm từ theo ngữ cảnh của nó

Nhận xét: Dé có thé xác định được trọng lượng của các liên kết đến và đi của mộtbài viết Wikipedia nào đó, việc xử lý nội dung của bai viết là cần thiết Ví du, débiết được một liên kết thuộc kiểu liên kết trong “Xem thêm” hay không, thì cần phảitìm kiếm chúng trong phân đoạn “Xem thêm” của bài viết nay; hay để biết được

Trang 25

một liên kết đến có thuộc kiểu liên kết từ “Xem thêm” hay không, thì cũng cần đọc

qua phân đoạn “Xem thêm” của bài việt tạo liên kêt dén này.

Nếu một bai viết Wikipedia diễn tả một khái niệm chung nào đó thì nó sẽ córất nhiễu liên kết di và liên kết đến, vi dụ bài viết “United Kingdom” có hơn 80ngàn liên kết đi và liên kết đến [22], như vậy việc phải đọc qua toàn bộ nội dungcủa các bài viết này để xác định trọng lượng của các liên kết trong bài viết “UnitedKingdom” đòi hỏi cần phải có thời gian xử lý

3.3 Siêu đồ thị (hyper-graph)

Siêu đồ thị là đỗ thị mà mỗi cạnh của nó bao gồm từ một đỉnh trở lên (>1đỉnh) Chomột siêu đồ thị G = (V, E), trong đó V là tập các đỉnh và # là tập các cạnh thuộc đồthị Mỗi cạnh e (e € E) là một tập bao gom các đỉnh v (v EV) và số lượng đỉnhthuộc e: 1< lel < IVI, e có tối thiểu một đỉnh và tối đa là tất cả các đỉnh của đồ thị

Các cạnh e được gọi là các cạnh bậc cao (hyper-edge).

Ví dụ: cho đồ thi G, được biểu diễn như trong Hình 3.2 Hình (A) biểu diễndạng đồ thị của Ớ; Trong đó G; gồm có 8 đỉnh (V) va 3 cạnh bậc cao (E) Ta có,

cạnh e¿ bao gôm tập đỉnh {v3 vz vs/ và tương tự cho các cạnh còn lại.

Một siêu đồ thị có trọng lượng là một siêu đồ thị nhưng các cạnh của nó được

gan các giá trị khác nhau đại diện cho trọng lượng của cạnh Thêm thông tin trọng

lượng vào đồ thị G, ta có G’ = (V, E, W), trong đó W là trọng lượng của các cạnh

tương ứng trong E.

Đề biểu diễn mối liên hệ giữa đỉnh v (ø € V) và các cạnh e (e € E), ta có:

1,néuv Eee, 3.2

0,néuv €ée G2)

h(v,e) =Từ đó ta có ma tran H biểu diễn mối liên hệ giữa tập đỉnh V va tập cạnh E Hình3.2(B) biểu diễn dạng ma trận mối liên hệ giữa tập đỉnh và tập cạnh trong G;

Trang 26

F2 VỊ XS \ ® N` ` \

`

I @ ` \- =“”* ` \\ N.X” \

(B)Hình 3.2 Ví dụ về biéu diễn siêu đô thị G1 (A) biểu diễn dạng đô thị; (B) biểu diễn

dạng ma trận

Dựa vào h(ø, e), dé đo trọng lượng của một đỉnh v bat ky, ta có:

Trong đó w(e) là trọng lượng tương ứng của đỉnh e: w(e) € W d(v) chính là trọng

lượng cua tat cả các cạnh nhận v làm đỉnh của nó.

Từ đó, ta có ma trận Dy là ma trận đường chéo biểu diễn trọng lượng đỉnh d(v)trong tập V của dé thị G’

Đề đo số lượng đỉnh của một cạnh e bat ky:

Vậy, ta có ma trận Dz là ma trận đường chéo biêu diễn mật độ ô(e) của các cạnh

trong E của đồ thị G

Trang 27

3.4 Nhóm theo chủ đề (community)

Trong một mang hay mot đồ thị cho trước, một nhóm (community) là một tập hợpcủa các đỉnh mà các kết nối giữa các đỉnh trong nhóm thì dày đặc hơn so với nhữngkết nối long lẻo giữa các đỉnh này với các đỉnh thuộc nhóm khác

Có nhiều phương pháp khác nhau để phân nhóm cho các đỉnh trong đồ thị cótrọng lượng Ở day, dé tài chi tóm tat phương pháp được dé xuất trong [17] [17]xây dựng giải thuật xác định nhóm dựa trên phép do cạnh cố chai (edge

betweeness).

Giá trị cạnh cổ chai của một cạnh nào đó là số đường đi ngắn nhất giữa hai

đỉnh bat kỳ trong đồ thị mà những đường đi ngắn nhất này có đi qua cạnh đang xét.Nếu giá trị cạnh cổ chai của một cạnh là cao, thì cạnh này cũng giống như là mộtnút cô chai trong việc di chuyển từ một phan của đỗ thị đến các phần khác Nhưvậy, nếu loại bỏ các cạnh có giá trị cạnh cô chai cao, thì kết quả thu được là các

nhóm tách rời.

Ban đầu, [17] coi tất cả các đỉnh là cùng một nhóm sau đó phân chia chúngthành hai nhóm, ba nhóm, Đến khi mỗi nhóm chỉ bao gồm một đỉnh duy nhất.Dé biết số lượng nhóm nao là tối ưu cho quá trình phân chia, [17] đo lường chấtlượng của các nhóm được chia dựa trên phép đo modularity [17] Modularity nằmtrong khoảng [0,1], néu modularity bằng không thì có nghĩa là các nhóm trên chỉđược gom nhóm giống như là ngẫu nhiên, nếu modularity băng một có nghĩa là các

nhóm thu được tách biệt nhau lớn.

[17] có ưu điểm là không cần phải định nghĩa trước số lượng đỉnh trong mộtnhóm [8] áp dụng phương pháp được nêu nay dé phân nhóm các cum từ trong tailiệu, mối quan hệ giữa các cụm từ là mối quan hệ ngữ nghĩa giữa chúng Vì vậy, sau

khi phân nhóm, các cụm từ thuộc cùng một nhóm sẽ có mỗi quan hệ ngữ nghĩa mật

thiết với nhau, tức là chúng có thé diễn tả cùng một chủ dé nào đó (ví dụ như một sự

việc hay một sự kiện).

Trang 28

Chương 4 PHƯƠNG PHAP DE XUẤT

Chương 4 trình bày SemiRank và hai phương pháp rút trích các cụm từ khóa ban

đầu mà dé tài đề xuất Mục 4.1 mô tả về phương pháp của [8] (được gọi làSemiRank), một hệ thống rút trích cụm từ khóa dựa vào ngữ nghĩa mà đề tài cảitiễn Hai phương pháp được đề xuất để tăng hiệu suất của SemiRank: phương phápcụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của cụm từ khóađược trình bay trong Mục 4.2 và Mục 4.3 Và cuối cùng là Mục 4.4, tiền xử lý dữliệu trước khi tiễn hành rút trích từ khóa

41 SemiRankSemiRank là phương pháp rút trích cum từ khóa dựa trên tập các cum từ khóa ban

đầu và mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu Mục tiêu củaSemiRank là tìm kiếm các cụm từ khóa có mối quan hệ ngữ nghĩa tương ứng vớinhững cụm từ khóa ban đầu này SemiRank tiến hành qua các bước được minh họa

như trong Hình 4.1 sau:

Tính môi quan hệ ngữ> nghĩa cho nhóm của

các cụm từTính môi quan hệ

ngữ nghĩa giữacác cặp cụm từ

Và pen Gan bài viet Wikitài liệu 5

————— tương ứng cho

các cụm từ

các cạnhngữ nghĩabậc haicác bài viet WIkI:

Anh 4.1, Quy trình rut trích cụm từ khóa trong SemiRank

1 Gan các bai viết Wikipedia (gọi tắt là Wiki) tương ứng cho các cum từ trongvăn bản: Dé có thé tính mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu,SemiRank gan các cụm từ có trong tài liệu vào các bài viết tương ứng trong Wiki,các bài viết này diễn tả nội dụng, ý nghĩa và các van dé liên quan đến các cụm từnày Do SemiRank không đề cập đến phương pháp tìm kiếm các bài viết Wikitương ứng cho các cụm từ , nên khi hiện thực, đề tài đã chọn một phương pháp khácđược trình bày trong Mục 5.2 Ở đây, chỉ có những cụm từ có thể tìm thấy được bài

Trang 29

được trình bày trong Mục 3.2.

2 Do lường mỗi quan hệ ngữ nghĩa giữa các cặp cum từ: Sau khi đã tìm kiếmđược các bài viết Wikipedia tương ứng, SemiRank tính toán mối quan hệ ngữ nghĩagiữa hai cụm từ bằng cách tính mối quan hệ ngữ nghĩa giữa hai bài viết tương ứngcủa chúng Phương pháp tính mối quan hệ ngữ nghĩa giữa hai bài viết cũng chính làphương pháp được sử dụng cho việc giải quyết nhập nhang được dé cập trong Mục3.2 Kết quả sau quá trình này, SemiRank thu được siêu đồ thị có trọng số G = (VW,E, W) trong đó V là tập các cụm từ hay các bài viết Wikipedia tương ứng của nó, E

là tập các cạnh đại diện cho mối quan hệ ngữ nghĩa giữa chúng, W là tập trọng sỐ

của các cạnh tương ứng Lúc này siêu đồ thị G chỉ bao gồm các cạnh bậc hai, thé

hiện môi quan hệ giữa hai cụm từ trong tài liệu.

3 Đo lường mối quan hệ ngữ nghĩa cho nhóm các cụm từ: Tại bước thứ ba củaquá trình rút trích từ khóa, SemiRank tính toán các cạnh bậc cao của đồ thị G Dé cóthé bat được các mỗi quan hệ diễn ra giữa một nhóm các cụm từ với nhau,SemiRank áp dụng phương pháp [17] để gom nhóm các cụm từ có mỗi quan hệ ngữnghĩa thân thiết lại với nhau Phương pháp gom nhóm [17] được trình bày trong

Trang 30

Trong dow € W,e€ E, |e| là số lượng đỉnh tương ứng thuộc cạnh e và e, làcạnh bậc hai của hai đỉnh 7 và 7 thuộc cùng cạnh bậc cao e a = 0 là thông số để xác

.; CỦa no.định tâm quan trọng của cạnh bậc cao e so với các cạnh nhị phân e;;

Sau bước ba, SemiRamk đã xây dựng một đồ thị ngữ nghĩa bậc cao có trọng

sô đại diện cho tài liệu mà nó đang xét.

4 Rút trích các cụm từ có trong tiêu dé làm tập các cụm từ khóa ban đầu: Nhưđã nói ở trên, mục tiêu của SemiRank là tìm kiếm các cụm từ khóa có mối quan hệngữ nghĩa tương đồng với những cụm từ khóa ban đầu Những cụm từ khóa ban đầunày được lấy trong tiêu đề của tài liệu Sau khi đã gán các bài viết Wikipedia tươngứng cho các cum từ trong tai liệu, những cum từ nào được tìm thấy trong tiêu dé

được coi như thuộc tập các cụm từ khóa ban dau.

5 Đánh giá mối quan hệ ngữ nghĩa: Ở đây việc tìm kiếm các cụm từ khóa cho

tài liệu dựa vào cụm từ khóa ban đầu và dựa vào siêu đỗ thị chính là một dạng củabài toán học bán giám sát (semi-learning) Để giải quyết bai toán của mình,SemiRank sử dụng một giải pháp lan truyền được dé xuất trong [25] gọi làPhraseRank Lúc này các đỉnh chứa cum từ khóa ban dau có giá trị bang 1, các đỉnh

còn lại có giá tri băn g0 Tại mỗi bước lan truyền, gia tri của tat cả các đỉnh trong đồ

thị đều được tính lại Và sau khi đạt đến trạng thái dừng, những đỉnh có giá tri caonhất được chọn làm tập các từ khóa đại diện cho tài liệu Phương pháp lan truyền

được trình bày trong phương trình sau:

ƒ'= ÿ9ƒ*+ (—)y (4.2)

Cho tập {V1, Va, , Vụ, Visits , Wnt, VỚI t phan tử đầu tiên là các cụm từ khóaban đâu:

e _ ƒ là véctơ chứa giá trị đánh giá cho các đỉnh trong tập V

e — y là véctơ đánh dấu các cụm từ khóa ban đầu:

yal, I<¡i<fvày,=Ú,tf<J<n

Trang 31

e #H là ma trận biéu diễn mối quan hệ giữa các đỉnh và các cạnh trong đồ thị G.

e Dy là ma trận đường chéo chứa trọng lượng của đỉnh trong G.

e D, là ma trận đường chéo chứa số lượng đỉnh của cạnh E.° W là ma trận đường chéo chứa trọng lượng của cạnh trong đồ thị

Giải thuật PhraseRank

Từng phan tử Q¿,) trong Ø có dạng như sau:

ỞŒœw,) — eer ni hw,,e) h,,e) (4.4)

Trong đó Q¡,) là mỗi quan hệ giữa hai đỉnh v; va vj Ở day, [25] đã tính lại mối

quan hệ ngữ nghĩa giữa hai đỉnh v; và v; dựa trên tất cả các cạnh mà chúng cùngthuộc về trong siêu đồ thị Và vì các mối quan hệ trong siêu đồ thị là mối quan hệngữ nghĩa nên mối quan hệ trong Ø cũng van là mối quan hệ ngữ nghĩa Lúc nay Øchính là một đồ thị đơn giản có cạnh bậc hai chứa mỗi quan hệ ngữ nghĩa giữa cácđỉnh Và quá trình lan truyền được thực hiện trên một đồ thị đơn giản Giải thuậtđánh giá tầm quan trọng của từ PhraseRank được thực hiện như Hình 4.2:

Giải thuật PhraseRank(V,0,y, B,C)

Đầu vào :Tập đỉnh V, với t phần tử đầu tiên là các cụm từ khóa ban đâu, n = | VỊ.y : tập đánh dấu các cụm từ khóa ban đâu với :

Trang 32

(1- B): hang số cộng thêm nếu cụm từ là từ khóa ban đâu.

Hmh 4.2 Giải thuật PhraseRank trong SemiRank

Ví dụ: Hình 4.3 là một ví dụ minh họa một số bước lặp trong giải thuật

PhraseRank.

Cho một đồ thị bao gồm 5 đỉnh (hay cụm từ) như hình vẽ, các cạnh trong đồthị thể hiện mối quan hệ ngữ nghĩa giữa hai đỉnh bất kỳ và chúng có trọng lượngkhác nhau Đỉnh v/ và đỉnh v2 là hai cụm từ khóa ban đầu Khởi dau, bước 0, y7,y2được gan gia tri bang 1, các đỉnh con lại được gan gia tri 0 (Hình 4.2, hang 1) Giatri của các đỉnh được tinh lai qua mỗi bước lặp (Hình 4.2, hàng 4) Tại bước 1, giatrị của một đỉnh phụ thuộc và các đỉnh kể với nó (Hình 4.2, hang 5) Các đỉnh v3 vav5 sau bước 0 có giá tri bang 0, nên giá trị của v4 được lan truyền từ v/ và v2 thôngqua mối quan hệ ngữ nghĩa giữa nó với các đỉnh này Lúc nay giá trị của v4 bằngtong giá trị lan truyền từ v/ theo đường /v/, v4) và giá trị lan truyền từ v2 theođường /v2, v4 Giá tri lan truyền từ {vl, v4} hay (v2, v4} phụ thuộc vào giá trị mađỉnh v/ và v2 có được và mối quan hệ giữa chúng với v4 Tương tự cho đỉnh v2,đỉnh v4 sau bước 0 có giá tri băng 0, nên v2 chỉ nhận giá tri lan truyền từ v/ theođường {v/, v2} Tuy nhiên, do v2 là một cum từ khóa ban đầu nên v2 được cộngthêm một hăng số /y2), (Hình 4.2, hàng 6) Tương tự cho các đỉnh còn lại

Tại bước 2, đỉnh v5 sau bước | bằng 0, từ đó giá trị của v4 phụ thuộc vào mối

liên hệ với v7, v2 va v3 (Hình 4.2, hàng 5) Lúc này, đỉnh v2 sau bước | có giá tri

Trang 33

băng gia tri tong hop cua hai duong lan truyén (vl, v2} và {v2}, nên v4 nhận đượcgiá tri từ v2 theo đường lan truyền {vl, v2, v4} và (v2, v4} Nhu vay v4 nhận đượcgiá trị tong hợp từ hai đường lan truyền qua v2, đường lan truyền từ v/ thông qua v2đến v4 và đường lan truyền từ v2 Tương tự cho giá tri v4 nhận được từ v/ và v3

{v2}

v5 v5

_ =

{v2,v1}{v1} {v1}

N

{v1, v3}Đước 0 Đước |

{v2,v4,v5} v2, v4,v2,v1}

v2,v1}

Pea-“

¬ mm — —¬v1,v3,v4,v1} ví {v1, v2, v1,v4}v1} NỘ ⁄ {v2,v4}

1N v3

{v1,v2,v4,v3}{v2,v4,v3}

Đước 3

{v1, v2, v4,v5}

{v2,v4,v2}{v1,v4,v2}{v2,v1,v2} {v1,v2} {v2}

M {v2,v4,v5}{v1,v4,v5}

Hình 4.3 Minh họa một số bước lặp trong giải thuật PhraseRank cho đồ thịbao gom 5 đỉnh Các đường đậm nhạt hay nét cat thể hiến trọng lượng khác nhaucủa các cạnh trong đồ thị vivà v2 là hai đỉnh khởi dau {vi, ,vj} là đường đi lantruyền giá trị xuất phát từ vi và đến vj {vi} là đỉnh xuất phát, tại đây một hang số

được cộng thêm.Tai bước 2 tính cho đỉnh v2, tương tự như đỉnh v4, v2 nhận được giá tri thong

qua đỉnh v/ theo đường lan truyền (v2, vl, v2} và {vl, v2} và nhận được gia tri lantruyền thông v4 là (v2, v4, v2}, (vi, v4, v2} (Hình 4.2, hang 5) Do đỉnh v2 là từkhóa ban đầu nên v2 được cộng thêm một hăng số {v2} (Hình 4.2, hàng 6) Vậy v2phụ thuộc vào hằng số cộng thêm, giá trị lan truyền từ đỉnh v/ thông qua những

đỉnh khác trong đồ thị, và thêm vào đó y2 còn nhận được giá tri lan truyền xuất phát

Trang 34

từ chính nó, di qua các đỉnh khác trong đồ thị và quay về củng cô nó Tính tương tựcho các đỉnh còn lại trong đồ thị.

Quá trình lặp lại tương tự cho bước 3 và các bước tiếp theo đến khi sự thay đổi

giá tri tại mọi đỉnh nhỏ hơn giá trị dừng (ý) (Hình 4.2, hang 9), lúc này giải thuậtdừng lại.

Nhận xét: từ vi dụ trên có hai nhận xét sau:

e Gia tri của đỉnh không là một cum từ khóa ban đầu phụ thuộc vào mối quan hệ

ngữ nghĩa với các cụm từ khóa ban đầu, sự phụ thuộc này có thể là trực tiếphoặc gián tiếp thông qua các cum từ khác có trong tài liệu Trong vi dụ trên, v4phụ thuộc vào mối quan hệ với v/ và v2 thông qua các đường /v7, v2, v4}, /v2,

v4},

e Giá trị của đỉnh là một cụm từ khóa ban đầu phụ thuộc vào ba yếu tố: hang sỐ

cộng thêm đại diện cho vai trò là cụm từ khóa ban đầu của nó, mối quan hệngữ nghĩa với các cụm từ khóa ban đầu khác và phụ thuộc vào giá trị gia cỗ.Giá trị gia có phụ thuộc vào mối quan hệ ngữ nghĩa giữa cum từ khóa ban đầuđang xét với các cụm từ còn lại bất kế các cụm từ này là khóa ban đầu hay

không Ví dụ như đỉnh v2 tại bước 2 của ví dụ trên, giá tri v2 phụ thuộc vào

hăng số cộng thêm, mối quan hệ với khóa ban đầu v/ va giá trị tự gia cố chínhnó Giá trị tự gia cỗ này xuất phát từ v2 thông qua v4 và v/ theo các đường lantruyền /v2, v4, v2} và {v2, v/, v2} Vì vậy v2 phụ thuộc vào mối quan hệ với

v4 và vi.

Nếu chỉ so sánh các đỉnh khóa ban đầu với nhau, vì mỗi đỉnh khóa ban đầuđều gia cô cho chính nó, nên ở đây, dé tai bỏ qua giá trị này va coi mỗi đỉnhchỉ phụ thuộc vào hai yếu tố hăng số cộng thêm và mối quan hệ với nhữngđỉnh ban đầu còn lại

Ở day, trong phạm vi của luận văn, đề tài chỉ xem xét trường hợp rút trích cáccụm từ khóa từ những cụm từ khóa ban đầu Nếu hăng số cộng thêm để đảm bảo vaitrò “cụm từ khóa ban đầu” đủ lớn, thì sau quá trình thực thi PhraseRank, những cum

Trang 35

từ khóa ban đầu luôn chiếm những vị trí đầu tiên, xếp theo độ ưu tiên về giá trị từcao đến thấp Và nếu số lượng cụm từ ban đầu này lớn hơn số lượng cụm từ khóacần lấy thì tập các cụm từ khóa sau cùng này luôn thuộc những cụm từ ban đầu Ởđây các cụm từ khóa sau cùng được tạo ra từ sự kết hợp giữa ngữ nghĩa và nhữngđặc tính có trước đó của cụm từ khóa ban đầu Hay nói khác hơn một cụm từ đượcchọn là khóa nếu nó là một cụm từ khóa ban đầu và có mối quan hệ thân thiết vớicác cụm từ khóa ban đầu khác

Nếu sử dụng tiêu đề để rút các cụm từ khóa ban đầu, vì số lượng lay duoc la itkhông đủ phủ qua tập các cụm từ khóa sau cùng Nên ở day, dé tai đề xuất haiphương pháp khác để rút trích các cụm từ khóa ban đầu thay thế cho việc sử dụngtiêu dé: phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tincủa cụm từ khóa Chỉ tiết được trình bày trong hai mục tiếp theo sau, Mục 4.2 và

Mục 4.3.4.2 Phuong pháp cụm từ trọng tamHình 4.4 mô tả quá trình rút trích tập các cụm từ khóa ban đầu trong phương phápcụm từ trọng tâm Phương pháp này dựa vào ý tưởng lẫy các cụm từ khóa ban đầutừ tiêu dé của SemiRank Thay vì chi lay từ tiêu dé, một số câu quan trọng diễn ta

nội dung chính của tải liệu được chọn lựa Các cụm từ trọng tâm được chọn từ

những câu nay và cả từ tiêu dé, các cum từ trọng tâm này được coi như là các cumtừ khóa ban đầu Bước xử lý trong hình chữ nhật màu xám là thành phần được sử

1 Lọc câu trọng tâm: Tại bước thứ nhất của quá trình, mục đích của đề tài là

lọc ra những câu diễn tả nội dung chính của tài liệu Dựa vào những quan sát về

Trang 36

cách trình bày nội dung của một tài liệu khoa học, đề tài đưa ra ba bước để lọc các

câu trong văn bản như sau:

Lọc theo các thành phan cụ thé của tài liệu: Chỉ những câu thuộc về các phansau của tai liệu là được chọn: tóm tat (abstract), giới thiệu (introduction) và kếtluận (conclusion) Bởi vì những thành phần trên của tài liệu thường được tácgiả của văn bản sử dụng để diễn tả tóm tắt nội dung hay giới thiệu tổng quátđiều tác giả sẽ trình bày trong toàn bộ văn bản nên chỉ những câu thuộc cácthành phan nay là được chọn

Lọc theo mẫu: Mặc dù các câu trong các thành phan được xác định ở trên diễn

tả nội dung chính của tai liệu, nhưng thông tin ma chúng đóng góp vào tài liệu

là khác nhau và vì vậy tầm quan trọng của chúng cũng khác nhau Do đó, khitác giả trình bày nội dung của văn ban, để có thé làm nỗi bật chủ đề chính, tácgiả sử dụng các từ nhắn mạnh như là “the main content of this paper is ”

(“noi dung chính cua bài báo là `) hay “this work describe” (“bài báo này

mô tả”) Tuy nhiên việc liệt kê đầy đủ các từ nhấn mạnh là không khả thi Nêndé tài chỉ tìm kiếm những câu có các danh từ sau: “paper/ this work/ this

study/ this article/ we/ our ”( “bài bao/ phương pháp nay/nghién cứ này/ bai

viết này/ chúng tôi/ của chúng tôi”) và tiễn hành thêm bước lọc thứ ba: địnhlượng tâm quan trọng của nội dụng thông qua tiêu đề

Định lượng tầm quan trọng của nội dung thông qua tiêu đề: Trong bước này,tầm quan trọng thông tin mà câu diễn tả được đánh giá dựa trên số lượng từtrùng giữa nó và tiêu dé của văn bản Dé đánh giá thông tin này, các từ dontrong câu được so trùng với các từ đơn trong tiêu đề, giá trị của câu được xác

định theo công thức sau:

_ |Jn5S|

Trang 37

Sau khi các câu được xác định trọng lượng, chúng sẽ được sắp xếp giảm dầntheo giá tri có được Chỉ một số câu đứng đầu danh sách là được chọn cho quá trình

rút trích tập các cụm từ trọng tâm.

Xét một ví dụ cụ thể cho quá trình lọc câu: cho một tài liệu có trong tập dữ liệu

Wiki-20 [14], tài liệu là một bài báo khoa học có tên “Occam's Razor: The Cutting

Edge for Parser Technology” (“Nguyên tắc của Occam: mô hình mới nhất cho kỹthuật phân tích cú pháp”) Trong tài liệu này, đề tài mong muốn rút được câu sau

“This paper provides a demonstration of this state-of-the-art compiler-compilertechnology using the programming language occam as an example” (“bai bao nay

cung cấp một mô tả cho kỹ thuật sinh ra bộ phân tích cú pháp hiệu quả sử dungngôn ngữ lập trình occam như là một ví đụ ”) trong phan tóm tắt của tài liệu vì câubao gồm những cụm từ quan trọng diễn tả nội dung của tài liệu như “compiler-

compiler” (“Trinh sinh ra bộ phán tích cú pháp”), “programming language”

(“ngôn ngữ lập trình”) và “occam” (“occam”) Câu này thỏa mãn đủ ba yếu tô đãnêu trên: (1) thuộc vào thành phan tóm tat của bai báo (2) bao gồm cụm từ thuộcmẫu: “this paper” (“bài báo này”) (3) chiều dài của nó lớn hơn hai lần số lượng từđơn trùng với tiêu dé (“occam” (“occam”) và “technology” ( “kỹ thuật”)) Sau khiđược tinh trọng lượng w,, nếu giá tri của cau lớn hơn những câu được xét khác, nó

sẽ được chon dé rút trích các cụm từ khóa ban dau.2 Gan các bài việt Wikipedia: Sau khi đã chon ra được những câu diễn ta nộidung chính của tài liệu, những câu này cùng với tiêu đề sẽ được xử lý đê tìm kiêm

Trang 38

các cụm từ và các bai bao Wiki tương ứng ngữ nghĩa với chúng Dé giải quyêt sựnhập nhăng nêu có, nội dung của tài liệu được sử dụng như là ngữ cảnh cho cụm từ.

Toàn bộ quá trình này diễn ra tương tự như trong bước 1 của SemiRank (Mục 4.1).3 Lọc theo TF (term frequency — tầng suất xuất hiện của cụm từ): Tại bướccuối cùng của phương pháp rút trích cụm từ trọng tâm làm khóa ban đầu, để có thé

chọn ra những cụm từ trọng tâm, sau khi đã có được các cụm từ và các bài báoWikipedia tương ứng với nó, các cụm từ được đánh giá vai trò của chúng thông qua

độ đo TF (term frequency — tan suất xuất hiện của cụm từ) TF là phép đo dựa trêngiả thiết là nếu cụm từ quan trong, nó sẽ thường xuyên được lặp lại trong văn bản.TE là một công cụ rất hữu ích và được sử dụng thường xuyên trong các hệ thống rút

trích tập các cụm từ khóa [3, 14, 18, 23].

Số lần lặp lại của các cụm từ trong văn bản được đếm, sau đó chúng đượcchuẩn hóa (normalized) bang cách chia cho độ lớn của văn bản Độ lớn của văn bảnđược tính bằng số cụm từ thu được (tính cho cả số lần lặp) sau khi gán thành côngvới các bài viết Wiki Sau khi TF của từng cụm từ được gán, chúng được sắp xếptheo thứ tự giảm dần và chỉ một số lượng cụm từ nhất định có TF đứng đầu danh

sách là được chọn như là các cụm từ trọng tâm Những cụm từ trọng tâm này đượccoi như là cụm từ khóa ban đâu.

Trong phương pháp nảy, ngoài việc tìm kiếm số lượng cụm từ khóa ban đầuthích hop, dé tài còn cần khảo sát thêm số lượng câu trọng tâm để sinh ra các cụmtừ khóa ban đầu này Hai gia tri này được quyết định dựa trên thực nghiệm trên tậpdữ liệu Wiki-20 [14] Chi tiết được trình bày trong Mục 5.4

4.3 Phương pháp sử dụng đặc điểm thông tin của cum từ khóa

Phương pháp này được gọi tắt là phương pháp đặc điểm thông tin Trong phươngpháp này, thay vì rút trích các cụm từ khóa ban đâu từ các câu quan trọng trong tảiliệu, đề tài lọc các cụm từ khóa ban đầu trực tiếp từ các cụm từ cắt được từ trong tài

liệu Hai đặc điêm của khóa được sử dụng đê đánh giá tâm quan trọng các cụm từ

Trang 39

này: TF va FOC TF được tính tương tự như trong phương pháp thứ nhất, xác địnhcụm từ trọng tâm (Mục 4.2) FOC (position of first occurrence — vi trí xuất hiện lầnđầu tiên của một cụm từ nào đó) là phép do dựa trên giả thiết là néu một cụm từ nào

đó là quan trọng, tác giả của văn bản sẽ có xu hướng trình bày nó sớm trong nội

dung của văn bản FOC của một cum từ được tinh bang khoảng cách giữa vị trí lầnđầu tiên nó xuất hiện trong văn bản và vi tri từ đầu tiên của văn bản Khoảng cáchnày là sỐ lượng từ tính từ từ đầu tiên của văn bản đến vị trí lần đầu tiên cụm từ xuấthiện FOC được chuẩn hóa (normalize) bằng phép chia với chiều dài văn bản Chiều

đài của văn bản là tông tât cả các từ đơn có trong văn bản.

TF va FOC diễn tả tam quan trọng của thông tin mà một cụm từ đóng góp chotài liệu Một cụm từ nếu được lặp lại nhiều lần hoặc xuất hiện sớm trong tài liệu, thìnó có thé chứa thông tin quan trọng tác giả muốn trình bay, va vì thế nó có khả năngtrở thành khóa TF va FOC được sử dụng trong hau hết các hệ thống rút trích tậpcác cụm từ khóa [3, 14, 23] Trong những hệ thong như [3, 23], TF, FOC va nhữngbiến thé của chúng là những đặc điểm chính dé hình thành nên hệ thống rút trích

Sau khi các cụm từ trong văn bản được gán vào những bài viết Wikipedia

tương ứng, những cụm từ này sẽ được tính giá trị TF va FOC như đã trình bày ở

trên Để xác định tầm quan trọng của cụm từ, dé tai tính trọng lượng cua chúng theo

công thức sau:

TFp “raoc (4.6)

Một cụm từ là quan trọng hơn những cụm từ khác nếu chúng xuất hiện nhiều lần(TF có giá tri lớn) va xuất hiện sớm trong văn bản (FOC có giá trị nhỏ) Sau khitrọng lượng của mỗi cụm từ được tính, chúng được sắp xếp giảm dần và chỉ một sốlượng nhất định cụm từ được chọn làm khóa ban đầu

4.4 Tiền xử lý dữ liệu đầu vào

Như đã đề cập ở Mục 3.2, dé có thé tính toán trọng lượng của các liên kết đến

và di của một bài việt Wikipedia, việc đọc qua nội dung của tat cả các bài việt liên

Tiêu đề	Rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản
Tác giả	Nguyen Kim Huyen
Người hướng dẫn	GS.TS. Cao Hoang Tru
Trường học	Đại học Quốc gia Tp. HCM
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2013
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	79
Dung lượng	15,48 MB