Trong tin t c th thao, có m t s ng ứ ể ộ ố ữ nghĩa ổ ế ở ạph bi n d ng b ba <subject> <predicate> ộ
<object> di n t các s kiễ ả ự ện, hành động, k t qu ế ả … Ví d , tin t c th thao có th ụ ứ ể ể chứa “Barcelona won Arsenal”, “Alex Ferguson defends Wayne Rooney”, “Cristiano Ronaldo’s transfer to Juventus” … Người dùng khi tìm đọc tin t c có th mu n tìm ki m các thông tin ứ ể ố ế trên. Vì v y, m t trong nh ng thuậ ộ ữ ật toán đầu tiên được đề xuất là để phát hi n các ng ệ ữ nghĩa này.
Có ba m u trẫ ừu tượng chính mô t ng ả ữ nghĩa như sau:
53
b) <Organization> <relation> <Organization>. Ví d , <Manchester City> <defeat> <Arsenal> ụ ho c <Barcelona> <1:3> <Real Madrid>. ặ
c) <Person> <relation> <Organization>. Ví d , <Romelu Lukaku> <transferTo> <Manchester ụ United>.
V i mớ ẫu đầu tiên, Person có th là th c th ể ự ể có tên như Marcus Rashford, Lionel Messi, hoặc khái niệm như Striker, Coach, hoặc đại t ừ như he, they. Quan hệ giữa các Person được xác định b ng ontology, ví d <Person> <support> <Person>, <Person> <remind> <Person>. M t quan ằ ụ ộ
h có th ệ ể được mô t b i nhiả ở ều nhãn khác nhau tương ứng v i các t ớ ừ đồng nghĩa, ví dụ “surprise” và “stun” cùng mô tả quan h <surprise>. ệ
V i m u th hai (<Organization> <relation> <Organization>), lu n án t p trung vào k t qu ớ ẫ ứ ậ ậ ế ả c a m t trủ ộ ận đấu ho c thông tin v mặ ề ột CLB đối đầu v i m t CLB khác. ớ ộ
Luận án s d ng m u cuử ụ ẫ ối cùng để trích rút thông tin v ề thái độ ủ c a c u th /hu n luy n ầ ủ ấ ệ viên/trọng tài đố ới v i một CLB/liên đoàn/giải đấu.
2.3.6.2 Ngữ nghĩa về thực thể quan tr ng trong tin t c ọ ứ
Bên c nh vi c phát hi n các c p b ba ng ạ ệ ệ ặ ộ ữ nghĩa đơn giản, luận án còn xu t thu t toán đề ấ ậ sinh chú thích ng ữ nghĩa cho các th c th có tên xu t hi n trong tin t c. Quan trự ể ấ ệ ứ ọng hơn là nh ng chú thích cho các th c th ữ ự ể liên quan đến nh ng thông tin quan tr ng trong tin t c. Nhiữ ọ ứ ệm v ụ này liên quan đến việc xác định các th c th chính mà tin tự ể ức đề ập đế c n, bên c nh vi c t o ạ ệ ạ siêu d ữliệu cơ bản như các tiêu đề. Thu t toán ậ định nghĩa một tr ng s cho m i ọ ố ỗ thể ện để hi xác định xem nó có quan tr ng trong m c tin hay không. Vi c tính toán tr ng s này d a trên t n ọ ụ ệ ọ ố ự ầ suất xu t hi n c a m i th hi n, v trí xu t hi n c a chúng ấ ệ ủ ỗ ể ệ ị ấ ệ ủ trong văn bản, mvà ối quan h gi a ệ ữ thể ệ hi n v i các khái ni m khác có trong ontology. Ngoài ra, khi áp d ng lu t trích ớ ệ ụ ậ chọn, tr ng ọ s ph thu c gi a l p c a th hi n ố ụ ộ ữ ớ ủ ể ệ cũng được so kh p v i chính luớ ớ ật đó. Thu t toán trích rút ậ các s ki n ự ệ đơn giản và các th c th quan tr ng trong tin t c ự ể ọ ứ được trình bày như sau:
Thuật toán 1: Sinh các chú thích ngữ nghĩa về thực thể quan trọng trong tin tức
Input: wcc – trọng số của khái niệm (lớp) c đối với nội dung tin tức wtc – trọng số của khái niệm c đối với tiêu đề của tin tức
wdc – trọng số khoảng cách giữa khái niệm c đối với các khái niệm khác wrc – trọng số của khái niệm c đối với luật trích chọn r
R – tập các luật trích chọn, Wtotal = 0
Output:tập các bộ ba (triple) diễn đạt thông tin tin tức có tiêu đề là gì, liên quan đến các thực thể quan trọng nào.
Trích chọn bộ ba: <webpage.uri bk:hasTitle webpage.title>
for eachthực thể có tên được xác định là một thể hiện của khái niệm i c m = số lần xuất hiện của i trong tiêu đề.
Wtitle-i = m* wtc
k = số lần xuất hiện của i trong nội dung tin. Wcontent-i = k* (wcc + wdc), Wsemantic-i = 0
foreachsenϵ {tập các câu trong tin tức} do foreachluật R do rϵ
so sánh rvớiannotations ϵsen if rkhớp với thể hiện i{
Trích chọn bộ ba tương ứng vớir Wsemantic-i = Wsemantic-i + wrc
endfor endfor
Wi = Wtitle i - + Wcontent-i W+ semantic-i Wtotal = Wtotal + Wi
54
meanW = Wtotal / number of entities
for eachthực thể có tên được xác định trong tin tức i if Wi > meanW
Trích chọn bộ ba <webpage.uri bk:about element.uri.> else Trích chọn bộ ba
<webpage.uri bk:contain element.uri.> endfor
Ý tưởng chính c a thu t toán ủ ậ đề xu t là: các luấ ật được so kh p vớ ới nhãn chú thích được phát hi n bệ ởi mô đun trích rút thực th có tên (NEE) trong tể ừng câu để tìm ra thông tin ng ữ nghĩa. Vấn đề là trong s r t nhi u th c th ố ấ ề ự ể có tên được phát hi n, th c th ệ ự ể nào được quyết định là quan tr ng v i tin t c. Tr ng s ọ ớ ứ ọ ốcuối cùng c a m t th hiủ ộ ể ện tương ứng v i mớ ột chú thích được đánh giá dựa trên s l n xu t hi n c a nó trong tin t c và tr ng s c a lu t so kh p. M i th ố ầ ấ ệ ủ ứ ọ ố ủ ậ ớ ỗ ể hiện được l a ch n là quan trự ọ ọng đố ới v i tin t c n u tr ng s c a nó lứ ế ọ ố ủ ớn hơn trọng s trung bình ố c a t t c các th hi n. ủ ấ ả ể ệ
D u thông tin quan tr ng c a tin tữliệ ọ ủ ức và tiêu đềchứa ý chính c a tin t c. Trong r t nhiủ ứ ấ ều trường h p, ngợ ữnghĩa được trích rút t ừ tiêu đề là thông tin chính c a tin tủ ức. Do đó, luận án tập trung phân tích tiêu đề c a tin t c. M i th hiủ ứ ỗ ể ện được xác định trong tiêu đề có tr ng s lọ ố ớn hơn các th hi n khác. ể ệ
2.3.6.3 Chú thích ng ữ nghĩa về tuyên bố gián ti p ế
Bên c nh các m i quan h ạ ố ệ thông thường, các tuyên b gián tiố ếp cũng rất thường xuyên được đưa ra trong tin tức th ể thao. Cũng tương tự như các quan hệ khác, quan h ệ này cũng được xác định dựa trên các mô hình được xây d ng t t p t khóa mô t các quan h . B ng 2ự ừ ậ ừ ả ệ ả .1 dưới đây mô t các t khóa và mô hình ả ừ xác định quan h này. ệ
B ng 2.1.ả T khóa cho các câu tuyên b gián ti pừ ố ế
T khóa ừ Mô hình
“say that”, “said that”, “announce”, “speech” {SportPerson} [t khóa] {Statement} ừ “statement”, “added” {Statement}, {SportPerson} [t khóa] ừ
T các quan h ừ ệ được mô t ả trong BKSport Ontology và các mô hình tương ứng v i các quan ớ h ệ đó, tác giả đã sử ụng JAPE để d xây d ng các luự ật xác định quan h . M i quan h s có mệ ỗ ệ ẽ ột luật tương ứng xác định. Tuy nhiên, t t c u hoấ ả đề ạt động theo m t nguyên t c chung: n u mộ ắ ế ột mô hình được tìm th y, thì s sinh quan h ấ ẽ ệ tương ứng.
Riêng đối với trường h p nh n d ng câu tuyên b gián ti p, n án ợ ậ ạ ố ế luậ đi sâu vào phân tích các mệnh đề gián ti p theo sau "said that ", "announce". Viế ệc xác định và sinh các chú thích ng ữ nghĩa trong trường hợp này được trình bày như sau:
Thu t toán 2: Sinh các chú thích ng ậ ữ nghĩa về tuyên b gián ti p ố ế
Input:P = {A “said that”/”announce B”};
//P là m t m u tuyên bộ ẫ ố gián ti p (ví dế ụ, A “said that” B, A “announce” B…) Output: Các b ba (triple) diộ ễn đạt tuyên b gián ti p ố ế
foreach (Chú_thích p trong P) do { statement = p.get(“B”); //chú thích các tuyên b ố
annotationSet = BKSport.annotate(statement); (Annotation annotation annotationSet){
55 if(annotation.contains(“semantic”)) { o tuyên b gi ng v i chú thích //Tạ ố ố ớ subject=annotation.get(“subject”); predicate=annotation.get(“predicate”); object=annotation.get(“object”); //Sinh các b ba ộ
<A> <bksport:said that> <statement>; <statement> <rdf:subject> subject; <statement> <rdf:predicate> predicate; <statement> <rdf:object> object; endif
endfor endfor
2.3.6.4 Chú thích ngữ nghĩa ề tin tứv c chuyển nhượng
Trong th thao, chuyể ển nhượng là m t phân khúc tin t c h p d n vộ ứ ấ ẫ ới các độc gi Các tin ả. t c v m t c u th chuy n t câu l c b này sang câu l c b khác ho c ký k t hứ ề ộ ầ ủ ể ừ ạ ộ ạ ộ ặ ế ợp đồng giữa hai câu l c b ạ ộ đều được đăng tải trên nhi u ngu n tin t c khác nhau. Các chú thích ng ề ồ ứ ữ nghĩa v tin t c trong ch ề ứ ủ đềđặc thù này, n u có th ế ể được t o ra s làm phong phú thêm t p chú thích ạ ẽ ậ ng ữ nghĩa của h ệthống BKSport và s ẽ được khai thác b i các chở ức năng của c ng tin t c ví dổ ứ ụ như giao diện t ng h p tin t c chuyổ ợ ứ ển nhượng, tìm ki m ng ế ữ nghĩa, liệt kê các tin t c liên quan. ứ Tuy nhiên, chưa có nhiều nghiên cứu quan tâm đến vấn đề này. Không giống như thông tin về k t qu các trế ả ận đấu ho c thông tin th thao khác, thông tin chuyặ ể ển nhượng bóng đá hàm chứa nhi u ng ề ữ nghĩa đặc thù do đó việc trích rút chúng s d ng mô hình b ử ụ ộ ba đơn giản khó đạt hi u qu cao. Lu n ệ ả ậ án đề xu t mấ ột phương pháp thích hợp để trích rút nh ng ng ữ ữ nghĩa này, bổ sung vào k t qu chung c a lu n án v bài toán sinh chú thích ng ế ả ủ ậ ề ữ nghĩa cho tin tức th thao. ể Các k t qu nghiên cế ả ứu liên quan được tác gi trình bày trong ả bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news ” tại tạp chí
International Journal of Pervasive Computing and Communications (2015). a) M t s mộ ố ẫu xác định quan h chuyệ ển nhượng trong tin t c ứ
Tin tức được diễn đạ ằt b ng ngôn ng t nhiên v i các cữ ự ớ ấu trúc văn phạm và ng ữ nghĩa đa d ng và ph c t p. Luạ ứ ạ ận án không đặt m c tiêu tìm ra m t tụ ộ ập các mô hình đại di n cho t t c ệ ấ ả các ng ữ nghĩa có thể v chuyề ển nhượng mà hướng t i viớ ệc xác định được các thành ph n ngôn ầ ng c u thành nên nh ng ng ữ ấ ữ ữ nghĩa quan trọng. T nh ng kh o sát và nghiên c u trên nhiừ ữ ả ứ ều tin t c chuyứ ển nhượng bóng đá để ố ắ c g ng tìm ra m t s ộ ố điểm chung v c u trúc và các thành ề ấ phần văn phạm c a các ng ủ ữ nghĩa này, tác giả đi sâu phân tích mô hình bộ ba đơn giản để đề xu t ba m u ấ ẫ xác định ng ữ nghĩa về chuyển nhượng như hình 2.14 sau:
56
Hình 2.14Các thành ph n ngôn ng t nhiên trong m u ầ ữ ự ẫ xác định các quan h chuyệ ển nhượng Các thành phần cơ bản c u thành các m u ấ ẫ xác định trên bao g m các th c th có tên (named ồ ự ể entity), cụm động t (phrasal verb). ừ Vì lĩnh vực đang được xem xét là lĩnh vực chuyển nhượng bóng đá, cho nên “thực th ể có tên” thường ch ỉ là con người th thao hoể ặc đội bóng. “Phrasal Verb” ởđây là cụm t ừchứa “verb” + “adverb” hoặc “verb” + “preposition”. Các động t mô t ừ ả thu c tính cộ ủa các quan h chuyệ ển nhượng, và “thời” của động t s ừ ẽ xác định quan h thu c v ệ ộ ề một trong ba trường hợp sau đây:
• Chuyển nhượng đã ảx y ra
• Chuyển nhượng có th xể ảy ra trong tương lai gần, và
• Chuyển nhượng đã không thành công
“Thời” của động t ph thu c vào d ng cừ ụ ộ ạ ủa động t ho c ph thu c vào nh ng t mang ý ừ ặ ụ ộ ữ ừ nghĩa và đứng trước động t . Trong ví dừ ụ: “Former Rangers goalkeeper Scott Gallacher has signed a two-year deal at Hearts”, động t ừ “signed” cho thấy r ng chuyằ ển nhượng đã xảy ra. M t ví d ộ ụ khác: “Barcelona forward Messi will make a new contract”. Từ “will” đứng trước động t ừ “make” cho thấ ằng trườy r ng h p này chuyợ ển nhượng chưa xảy ra nhưng có thể ả x y ra trong tương lai gần.
C ụthể hơn, trong hình 2.15 bên dưới, lu n án trình bày mô hình ậ xác định cụm động t ừ như sau:
<Extra Verb> <Main Verb> <Adverb/Preposition> Trong đó:
• “Extra Verb” (trợ độ ng t ) là các t ừ ừ đứng ngay trước động t chính, cho biừ ết hành động ho c s ki n chuyặ ự ệ ển nhượng rơi vào một trong ba trường h p sau: (1) s kiợ ự ện chưa xảy ra nhưng có thể ảy ra trong tương lai gầ x n, (2) s kiự ện đã xảy ra, và (3) s ki n không ự ệ x y ra. ả
• “Main Verb” là động t chính cừ ủa “phrasal verb”.
57
Hình 2.15Các m u bi u di n cẫ ể ễ ụm động từ
Nếu không có “extra verb” trước “main verb”, tác giả cho r ng s kiằ ự ện đã xảy ra (ng ữ nghĩa tích c c). ự
Nếu có “extra verb” trước “main verb”, có hai trường h p x y ra: ng ợ ả ữ nghĩa phủ đị nh và ng ữ nghĩa đại di n cho các kh ệ ả năng:
• “extra verb” mang ý nghĩa tương lai gần, cho biết hành động ho c s ki n có th x y ra ặ ự ệ ể ả trong tương lai, ví dụ “could”, “prepare”, “will”, “consider”.
• “extra verb” mang ý nghĩa phủ đị nh, cho biết hành động ho c s kiặ ự ện đã không và sẽ không x y ra, ví d ả ụ “not”, “no”, “don’t”, “fail”, “reject”.
b) Quy trình xác định ngữ nghĩa quan hệ chuyển nhượng
Để ự th c hi n ệ xác định ng ữ nghĩa quan hệ chuyển nhượng, các lu t ậ xác định trích rút và để nh n bi t các quan h ng ậ ế ệ ữ nghĩa chuyển nhượng đã được thi t k . JAPE [116] ế ế đượ ực l a chọn là ngôn ng bi u di n lu t b i vì nó có nhiữ ể ễ ậ ở ều ưu điểm. JAPE là m t thành ph n c a GATE, ộ ầ ủ dùng để xác định các th c th ự ể được xác định b ng các lu t, nó là ngôn ng ằ ậ ữ được s dử ụng để vi nên các bi u th c chính quy thông qua các chú thích. ết ể ứ
Đầu tiên, văn bản được chia thành các câu, m i câu mang m t nỗ ộ ội dung nào đó. Các câu thường bắt đầu và k t thúc b i dế ở ấu câu như dấu chấm “.”, dấu ch m phấ ảy “;” hoặ ừc t cho bi t ế s bự ắt đầu c a n i dung mủ ộ ới như “while”, “however”, “but”, vì thế ta có th dùng các luể ật để d dàng th c hiễ ự ện điều này. Sau đó, mỗi câu s ẽ được đem so khớp v i m t danh sách các lu t. ớ ộ ậ
Luận án ch xem xét các th c th có tên và các cỉ ự ể ụm động t , vì v y các t không liên quan ừ ậ ừ s b b ẽ ị ỏ qua. Đố ới v i các cụm động t , b i vì mừ ở ột động t có thừ ể trong nhi u d ng khác nhau ở ề ạ và nhi u t khác nhau có th di n t cùng m t lo i quan h ng ề ừ ể ễ ả ộ ạ ệ ữ nghĩa (ví dụ, “move to”, “big moves”, “transferred to” tấ ả đềt c u di n t quan h ễ ả ệ “bksport:transferTo”), cho nên trong khi định nghĩa các luật, các động t ừ có liên quan cũng đượ ậc t p h p vào trong các t p t v ng. Ví ợ ậ ừ ự d , m t t p t v ng bi u di n vi ký kụ ộ ậ ừ ự ể ễ ệc ết được định nghĩa như sau:
Macro: SIGN (
{Token.string=="sign"}|{Token.string=="signs"}|{Token.string=="signed"}|{Token.string=="signing"}|{ Token.string=="signature"}
)
Dưới đây là 2 phần c a hai lu t ủ ậ xác định, Sign01 và Transfer01:
Rule:Sign01 Priority:80 (
({SportPerson}):p1
58
(SIGN)
({Token.string!=”.”, Token.string!=”;”, Token.string!=”,”})*
):sign Rule: Transfer01 Priority: 70 ( ({SportPerson})p ({Token.string!=”.”, !SportPerson})* (TRANSFER) ({Token.string!=”.”, !SportPerson})* ({SportTeam}:t ):transfer
Để xác định trong hai trường h p này: s ki n chuyợ ự ệ ển nhượng s xẽ ảy ra trong tương lai gần và s ki n chuyự ệ ển nhượng không x y ra, lu n án d a vào nhả ậ ự ững mô hình đã được xây d ng. ự Theo đó, ngoài xác định ng t chính trong tin tđộ ừ ức như đã trình bày, luận án cũng phải xác định “extra verb”. Tương ứng với hai trường h p trên, lu n án t o ra hai t p t vợ ậ ạ ậ ừ ựng “extra verb”. Tập th nh t ch a các t /c m t bi u di n s ki n s xứ ấ ứ ừ ụ ừ ể ễ ự ệ ẽ ảy ra trong tương lai gần:
Macro: COULD
({Token.string==”could”} | {Token.string==”will”} | {Token.string==”prepare”} | {Token.string==”consider”} | […])
T p th hai ch a tậ ứ ứ ừ/cụm t mà bi u di n s ki n không x y ra: ừ ể ễ ự ệ ả
Macro: NOT
({Token.string==”not”} | {Token.string==”deny”} | {Token.string==”reject”} | {Token.string==”fail”} | […])
Sau đây là hai luật đơn giản Sign02 và Sign03 để xác định các ng ữ nghĩa mà thuộc v hai ề