Để trích rút thông tin ng ữ nghĩa, chúng ta cần ph i có mả ột cơ sở tri thức đủ ớ l n. Thành ph n ầ Web Scrapper thu thập cơ sở d ữliệu liên quan đến th ể thao như cầu th (tên, tu i, môn th thaoủ ổ ể , …), câu lạc b (tên, sân nhà, ...), trộ ận thi đấu, giải thưởng, sân vận động ... và gửi chúng đến thành phần làm giàu cơ sở tri th c (Knowledge Base Enrichment). Mứ ột mô đun con của nó – mô đun chuyển đổi d ữliệu t ự động và sinh RDF – ẽ s chuyển đổi t ự động d ữliệu sang định d ng ạ RDF.
Một mô đun khác của KBE ch u trách nhi m nh p th công các bí danh c a th c th hoị ệ ậ ủ ủ ự ể ặc các t ừ đồng nghĩa mà không thể thu th p và chuyậ ển đổ ựi t động. D liữ ệu RDF được chuyển đổi sau đó được nhập vào cơ sở tri th c th thao c a h th ng. ứ ể ủ ệ ố
Cho đến nay, luận án đã bổ sung cơ sở tri th c v các c u th , các hu n luy n viên, các sân ứ ề ầ ủ ấ ệ vận động bóng đá v.v. của giải đấu Premier League, La Liga, Champions League, các tay vợt tennis t ATP rankings. ừ
Hình 2.11 dưới đây mô tả ộ m t ph n quá trình ầ làm giàu cơ sở tri th c KIM v i d u th ứ ớ ữ liệ ể thao. Ph n trên bên trái c a hình 2.11 là m t ph n c a trang Web H™L hi n th d u v ầ ủ ộ ầ ủ ể ị ữliệ ề Wayne Rooney, ph n trên bên ph i c a hình 2.11 là m t ph n c a ontology th thao BKSport ầ ả ủ ộ ầ ủ ể đang biểu diễn lĩnh vực bóng đá và phần dưới hình 2.11 là cơ sở tri th c v Wayne Rooney sau ứ ề khi được x lý. ử
50
Trong th c t thông tin v các nhân v t hay t ự ế ề ậ ổchức th thao có ể thể thay đổi theo th i gian, ờ trong đó thông tin về con người (vận động viên, c u thầ ủ, …) thay đổ thười ng xuyên hơn thông tin v t ề ổchức (câu l c b ) hay các th c th ạ ộ ự ể khác như sân vận động. Ví d trong quá kh cụ, ứ ầu thủ Cristiano Ronaldo thi đấ cho độu i bóng Real Madrid, hi n t i ệ ạ thi đấu cho đội Juventus. Các thông tin này được lưu trữ dưới d ng ng ạ ữ nghĩa trong cơ sở tri th c th ứ ể thao và đóng vai trò quan trọng trong các phương pháp mà lu n án xu t cho các bài toán nghiên c u chính. Do ậ đề ấ ứ đó, ệ vi c c p nh t các ng ậ ậ ữ nghĩa này có ý nghĩa quan trọng.
Để các thông tin ng ữ nghĩa nói trên luôn được c p nh t, troậ ậ ng bước thi t k ontology lu n ế ế ậ án đã thiế ết k các thu c tính c a các th c th ộ ủ ự ể cho phép lưu trữ và bi u diể ễn được s ự thay đổi c a các thông tin quan tr ng. Ví d , v m t c u th ủ ọ ụ ới ộ ầ ủ bóng đá ngoài thuộc tính đang chơi cho câu l c b nào (bksport:playFor) thì lu n án còn thi t k thu c tính cạ ộ ậ ế ế ộ ựu câu l c b ạ ộ (bksport:exClub). Các thành phần Web Scrapper đượ ập trình đểc l chạ ự động địy t nh k theo ỳ thời gian (m t tu n m t l n) thu thộ ầ ộ ầ để ập các d u m i. ữliệ ớ Khi xác định s có ự thay đổi liên quan t i m t th c thớ ộ ự ể, cơ sở tri th c s ứ ẽ được c p nh t m t cách phù hậ ậ ộ ợp đảm b o di n t ả ễ ảđược thông tin mới nhưng không làm mất đi thông tin trong quá khứ. V i ví d v Cristiano Ronaldo giá ớ ụ ề trị ủ c a thu c tính bksport:playFor t Real Madrid s ộ ừ ẽ được c p nh t thành Juventus, còn giá tr ậ ậ ị Real Madrid được thêm vào cơ sở tri th c là c u câu l c b (bksport:exClub) c a Ronaldo. Vứ ự ạ ộ ủ ới phương pháp trên tác vụ xác định th c th có tên ự ể và xác định m i quan h v i các th c th khác ố ệ ớ ự ể trong tin tức s hi u qu ẽ ệ ả hơn, do ng ữ nghĩa của các th c th trong các tin tự ể ức cũ và mới đều được b o t n. ả ồ
2.3.5 Xác định, trích rút và xác định lớp ngữ nghĩa cho thực th có tên ể
2.3.5.1 Xác định thực th có tên trong tin tể ức như là một th ể hiện thuộc cơ sở tri th cứ
Để ểu đượ hi c ng ữ nghĩa của văn bản, đầu tiên h th ng c n hiệ ố ầ ểu được ng ữ nghĩa của các thực th có tên mà tên c a chúng xu t hiể ủ ấ ện trong văn bản. Các th c th ự ể có tên trong lĩnh vực thể thao bao g m tên c a các c u th , các hu n luy n viên, các câu l c b , các sân vồ ủ ầ ủ ấ ệ ạ ộ ận động,
các s ki n th thao v.v. Ví dự ệ ể ụ, đối với câu “Cordoba has completed the loan signing of Brazillian Winger Ryder Matos”, hệ th ng c n hi u r ng Cordoba là tên c a m t câu l c b ố ầ ể ằ ủ ộ ạ ộ bóng đá và Ryder Matos là tên của m t Wộ inger. Để làm điều này, phải có bướ xác địc nh các thực th có tên. ể
Sau khi đã được ti n x ề ử lý, thông tin được chuyển đến thành ph n ầ xác định th c th có tên ự ể để phát hi n s xu t hi n c a c u th , hu n luy n viên, câu l c b , các tác nhân v.v trong các ệ ự ấ ệ ủ ầ ủ ấ ệ ạ ộ tin tức. Mô đun trích rút thực th có tên l y ra t t c các th hiể ấ ấ ả ể ện và các khái ni m cệ ủa cơ sở tri thức mà xu t hiấ ện trong các trang Web. Đóng vai trò này là tác vụ NER c a h th ng BKSport ủ ệ ố trong đó có tái sử ụ d ng Ontology Proton c a KIM. ủ
KIM [36] là m t n n t ng mà lu n án tái s dộ ề ả ậ ử ụng để xác định các th c th ự ể có tên. KIM đã được xây dựng để xác định các th c th ự ể trong lĩnh vự ổng quát chung, nó không đặc t c thù cho một lĩnh vực c ụthể nào c . Vì vả ậy để xác định các th c th mự ể ở ức sâu hơn và chi tiết hơn trong lĩnh vực th thao, tác gi ể ả đã thêm mộ ật t p các khái ni m và các thu c tính m i vào trong ệ ộ ớ ontology c a KIM, và b sung các th c th mủ ổ ự ể ới vào cơ sở tri th c c a KIM. Trong ontology ứ ủ mặc định c a KIM (ontology PROTON), các th c th ủ ự ể có tên được bi u di n m c khái quát ể ễ ở ứ (ví dụ, Person (người), Location (địa điểm)), không chi ti t (ví d , Winger, Fế ụ orward). Do đó, tác gi ả đã tích hợp ontology BKSport v i PROTON theo cách th c là các khái ni m c ớ ứ ệ ụthểhơn c a BKSport s thay th các khái ni m trủ ẽ ế ệ ừu tượng c a PROTON trong quá trình ủ xác định. Nh ờ tính m c a n n t ng KIM, vi c tích h p có th ở ủ ề ả ệ ợ ể được th c hi n b ng cách ánh x các khái niự ệ ằ ạ ệm gi a chúng. Ví d , các l p cữ ụ ớ ủa ontology BKSport như Coach, Winger, Forward và Defender được hiểu như là các lớp con c a l p Person c a PROTON. Hình 2.12 miêu t m t s lủ ớ ủ ả ộ ố ớp được ánh x t ontology BKSport t i ontology PROTON. ạ ừ ớ
51
Hình 2.12M t s ánh x t ộ ố ạ ừ BKSport đến PROTON
Ánh x ạ ontology không đảm b o ch c ch n s thành công c a tác v NER khi không có s ả ắ ắ ự ủ ụ ự b ổ sung cơ sở tri th c v tin t c chuyứ ề ứ ển nhượng bóng đá. Để xây dựng cơ sở tri th c này, các ứ cơ sở d u trên Web có ch a thông tin v các c u th , các hu n luy n viên, các câu l c b và ữliệ ứ ề ầ ủ ấ ệ ạ ộ các tác nhân bóng đá trong các giải đấu bóng đá hàng đầu của châu Âu được thu th p và chuy n ậ ể đổi thành chú thích ng ữ nghĩa sử ụ d ng ontology BKSport. V i vi c m r ng PROTON b ng ớ ệ ở ộ ằ ontology BKSport và s dử ụng thư viện c a n n t ng KIM, các th c th có tên trong tin t c th ủ ề ả ự ể ứ ể thao đã đượ xác địc nh đúng vớ ới l p khái niệm định nghĩa trong ontology. Trong hình 2.13, Steven Caulker không ch ỉ được hiểu là Person mà còn được hi u là m t SportPerson, c ể ộ ụthể hơn là một Defender.
52
2.3.5.2 Phát hiện bí danh c a thủ ực thể
Một đặc thù của lĩnh vực th thao là các nhân v t, t ể ậ ổchức n i ti ng ngoài tên g i chính thổ ế ọ ức thường hay có nh ng biữ ệt danh được biết đế ộn r ng rãi b i công chúng. Ví d hu n luy n viên ở ụ ấ ệ Alex Ferguson có bi t hi u Fergie, Lionel Messi g n vệ ệ ắ ới “La Pulga”, hay đội bóng đá FC Barcelona có bi t danh Barca hoệ ặc Blaugrana. Do đó, việc phát hiện được các bi t danh này t ệ ừ văn bản và ánh x chúng v i các th c th ạ ớ ự ể có tên đại di n chính thệ ức tương ứng s ẽlàm tăng hiệu qu c a tác v ả ủ ụ xác định thực th có tên. Lu n án th c hi n tác v này b ng cách t o ra thông ể ậ ự ệ ụ ằ ạ tin v các bí danh này khi xây dề ựng cơ sở tri th c thứ ể thao một cách t ự động (đã trình bày ở tiểu m c 2.3.4) s d ng thu c tính proton:hasAlias. ụ ử ụ ộ
Khi các thông tin v các tên g i khác cề ọ ủa th c th ự ể được b ổ sung vào cơ sở tri th c BKSport ứ dướ ại d ng bí danh (Alias) thì các th c th ự ể này cũng đượ xác địc nh như thực th chính. ể
2.3.5.3 Xác định các thực th m c khái ni m chi ti t ể ở ứ ệ ế
M c tiêu c a tác v này là phát hiụ ủ ụ ện được các th c th c a các l p chi ti t trong ontology ự ể ủ ớ ế BKSport như là “Defender” hay “Forward” thay vì các khái niệ ở ức cao như “Person” hay m m “Player”. Qua phân tích nhận th y, h u h t các th c th ấ ầ ế ự ể đều được bi u diễ ễn dướ ạng “chứi d c nghiệp” + “tên riêng” Ví dụ, “Striker Romelu Lukaku double leads Man United to easy win over CSKA Moscow”. Ở đây công việc c a nhân v t th ủ ậ ể thao đượ xác địc nh là Striker. Các chức nghiệp thường chính là các nhãn c a khái ni m, nên thu t toán s d ng nhãn (label) c a ủ ệ ậ ử ụ ủ khái ni m làm mệ ẫu (pattern) để xây d ng lu xác nh cho th c th c a t ng khái niự ật đị ự ể ủ ừ ệm.
2.3.5.4 C ải tiến xác định thực th có tên d ng rút g n ể ở ạ ọ
Trong các văn bản, thường sau khi s dử ụng tên đầy đủ c a th c th , th c th ủ ự ể ự ể đó sẽđược nhắc l i v i tên rút gạ ớ ọn để khi n bài vi t tr nên ng n g n và d ế ế ở ắ ọ ễ đọc (Ví d ụ “Lionel Messi” được vi t ế thành “Messi”). Bở ậi v y, vi c c i tiệ ả ến để cung c p kh ấ ả năng nhận bi t th c th ế ự ể khi được bi u ể di n v i tên rút g n r t quan tr ng. Tên rút gễ ớ ọ ấ ọ ọn thường s là m t ph n cẽ ộ ầ ủa tên đầy đủ. Do đó, m t th c thộ ự ểkhi được bi u di n v i tên rút g n có th ể ễ ớ ọ ể được nh n biậ ết khi nó đã được phát hi n ệ với tên đầy đủ trước đó qua việ ử ục s d ng phép toán so kh p m t ph n. ớ ộ ầ
2.3.5.5 Xác định thực thể cùng tên khác ki u ể
Đây là trường hợp thường gặp trong chú thích văn bản khi th c th có tên xu t hi n trong ự ể ấ ệ văn bản có th thu c v các ki u khác nhau. Ví d , Santiago Bernabéu là tên m t c u thể ộ ề ể ụ ộ ầ ủ, nhưng cũng là tên một sân vận động. Ở trường h p này, chúng ta s ti n hành ki m tra m u th c th , ợ ẽ ế ể ẫ ự ể tùy vào h u t ậ ố theo sau để xác định ki u c a th c th . ví d trên n u Santiago Beể ủ ự ể Ở ụ ế rnabéu đi theo sau là khái ni m stadium thì th c th bệ ự ể ắt đượ ẽ được s c xác định là sân vận động.
2.3.6 Trích rút “ngữ nghĩa” từ tin t c ứ
Phát hi n và trích rút các ng ệ ữ nghĩa của thông tin là n i dung nghiên c u quan tr ng nhộ ứ ọ ất để t o ra chú thích ng ạ ữ nghĩa. Tác vụ này s d ng k t qu t ử ụ ế ả ừ giai đoạn xác định thực th có tên. ể Có nhi u khía c nh ng ề ạ ữ nghĩa khác nhau được lu n án quan tâm. ậ
2.3.6.1 Các ng ữ nghĩa bộ ba đơn giản
Trong tin t c th thao, có m t s ng ứ ể ộ ố ữ nghĩa ổ ế ở ạph bi n d ng b ba <subject> <predicate> ộ
<object> di n t các s kiễ ả ự ện, hành động, k t qu ế ả … Ví d , tin t c th thao có th ụ ứ ể ể chứa “Barcelona won Arsenal”, “Alex Ferguson defends Wayne Rooney”, “Cristiano Ronaldo’s transfer to Juventus” … Người dùng khi tìm đọc tin t c có th mu n tìm ki m các thông tin ứ ể ố ế trên. Vì v y, m t trong nh ng thuậ ộ ữ ật toán đầu tiên được đề xuất là để phát hi n các ng ệ ữ nghĩa này.
Có ba m u trẫ ừu tượng chính mô t ng ả ữ nghĩa như sau:
53
b) <Organization> <relation> <Organization>. Ví d , <Manchester City> <defeat> <Arsenal> ụ ho c <Barcelona> <1:3> <Real Madrid>. ặ
c) <Person> <relation> <Organization>. Ví d , <Romelu Lukaku> <transferTo> <Manchester ụ United>.
V i mớ ẫu đầu tiên, Person có th là th c th ể ự ể có tên như Marcus Rashford, Lionel Messi, hoặc khái niệm như Striker, Coach, hoặc đại t ừ như he, they. Quan hệ giữa các Person được xác định b ng ontology, ví d <Person> <support> <Person>, <Person> <remind> <Person>. M t quan ằ ụ ộ
h có th ệ ể được mô t b i nhiả ở ều nhãn khác nhau tương ứng v i các t ớ ừ đồng nghĩa, ví dụ “surprise” và “stun” cùng mô tả quan h <surprise>. ệ
V i m u th hai (<Organization> <relation> <Organization>), lu n án t p trung vào k t qu ớ ẫ ứ ậ ậ ế ả c a m t trủ ộ ận đấu ho c thông tin v mặ ề ột CLB đối đầu v i m t CLB khác. ớ ộ
Luận án s d ng m u cuử ụ ẫ ối cùng để trích rút thông tin v ề thái độ ủ c a c u th /hu n luy n ầ ủ ấ ệ viên/trọng tài đố ới v i một CLB/liên đoàn/giải đấu.
2.3.6.2 Ngữ nghĩa về thực thể quan tr ng trong tin t c ọ ứ
Bên c nh vi c phát hi n các c p b ba ng ạ ệ ệ ặ ộ ữ nghĩa đơn giản, luận án còn xu t thu t toán đề ấ ậ sinh chú thích ng ữ nghĩa cho các th c th có tên xu t hi n trong tin t c. Quan trự ể ấ ệ ứ ọng hơn là nh ng chú thích cho các th c th ữ ự ể liên quan đến nh ng thông tin quan tr ng trong tin t c. Nhiữ ọ ứ ệm v ụ này liên quan đến việc xác định các th c th chính mà tin tự ể ức đề ập đế c n, bên c nh vi c t o ạ ệ ạ siêu d ữliệu cơ bản như các tiêu đề. Thu t toán ậ định nghĩa một tr ng s cho m i ọ ố ỗ thể ện để hi xác định xem nó có quan tr ng trong m c tin hay không. Vi c tính toán tr ng s này d a trên t n ọ ụ ệ ọ ố ự ầ suất xu t hi n c a m i th hi n, v trí xu t hi n c a chúng ấ ệ ủ ỗ ể ệ ị ấ ệ ủ trong văn bản, mvà ối quan h gi a ệ ữ thể ệ hi n v i các khái ni m khác có trong ontology. Ngoài ra, khi áp d ng lu t trích ớ ệ ụ ậ chọn, tr ng ọ s ph thu c gi a l p c a th hi n ố ụ ộ ữ ớ ủ ể ệ cũng được so kh p v i chính luớ ớ ật đó. Thu t toán trích rút ậ các s ki n ự ệ đơn giản và các th c th quan tr ng trong tin t c ự ể ọ ứ được trình bày như sau:
Thuật toán 1: Sinh các chú thích ngữ nghĩa về thực thể quan trọng trong tin tức
Input: wcc – trọng số của khái niệm (lớp) c đối với nội dung tin tức wtc – trọng số của khái niệm c đối với tiêu đề của tin tức
wdc – trọng số khoảng cách giữa khái niệm c đối với các khái niệm khác wrc – trọng số của khái niệm c đối với luật trích chọn r
R – tập các luật trích chọn, Wtotal = 0
Output:tập các bộ ba (triple) diễn đạt thông tin tin tức có tiêu đề là gì, liên quan đến các thực thể quan trọng nào.
Trích chọn bộ ba: <webpage.uri bk:hasTitle webpage.title>
for eachthực thể có tên được xác định là một thể hiện của khái niệm i c m = số lần xuất hiện của i trong tiêu đề.
Wtitle-i = m* wtc
k = số lần xuất hiện của i trong nội dung tin. Wcontent-i = k* (wcc + wdc), Wsemantic-i = 0