4.4.1 K ch b n th nghi m ị ả ử ệ
M c tiêu cụ ủa tiểu m c ụ này là đánh giá và so sánh hiệu qu c 3 ả ủa phương pháp gợi ý:
• Chỉ ử ụng độ tương đồ s d ng v ng ề ữ nghĩa ữgi a các tin.
• Chỉ ử ụng độ tương đồ s d ng v n i dung gi a các tin. ề ộ ữ
• K t h p c ế ợ ả hai độ tương đồng trên.
Tương tự như các nghiên cứu trước, môi trường ti n hành th c nghiế ự ệm đánh giá phương pháp g i ý tin t c luợ ứ ận án đề xu t là máy tính có vi x lý Intel Core i7, CPU 2.30 GHz vấ ử ới RAM 8GB, h ệ điều hành Microsoft Windows Server 2008. Các thuật toán được cài đặ ằt b ng ngôn ng l p trình Java. ữ ậ
Việc đánh giá các phương pháp khác nhau được th c hi n bự ệ ằng cách đo độ chính xác. Do chưa xây dựng được h th ng online, nên trong nghiên c u này, lu n án s dệ ố ứ ậ ử ụng phương pháp đánh giá o fline để đánh giá. Để đánh giá of ffline, m t t p N = 100 tin (ký hi u là t p ộ ậ ệ ậ ) được chọn t m t s trang web th thao n i tiừ ộ ố ể ổ ếng như http://www.skysports.com/, http://www.espnfcasia.com/, http: //sports.yahoo.com/ và ti p theo, các cế ộng tác viên được yêu cầu đánh giá rằng một tin có liên quan hay không liên quan đến m t tin khác.ộ Sau đó, ta thu được m t t p d li u th nghiộ ậ ữ ệ ử ệm, trong đó mỗi tin s có tin liên quan ẽ (
) và các tin t c không liên quan (ứ −1− ). Các phương pháp trên được th c hi n ch y riêng ự ệ ạ cho m i tin ỗ trong tập và cũng sinh ra đúng tin có độ tương đồng cao nh t v i nó ấ ớ (tin ), sau đó so sánh với tin mà cộng tác viên đã xác định trong b d u th nghi m. ộ ữliệ ử ệ Ví d , v i tinụ ớ , c ng tác viên phát hi n 5 tin trong 99 tin còn lộ ệ ại liên quan đến sau đó thuật toán t ng chự độ ạy cũng sinh ra 5 tin, rồi so sánh chúng v i 5 tin mà cớ ộng tác viên đã xác định.
Ký hi u: ệ
• là s n mà thu t toán g i ý chính xác cho tin ốti ậ ợ .
• là s tin mà thu t toán g i ý không chính xác cho tin ố ậ ợ
• là s tin liên quan mà thu t toán không g i ý cho tinố ậ ợ .
105
(4. )20
Thực hi n theo cách trên, ta có ệ = , do đó ) = ( ). Trong ( nghiên c u này, lu n án ứ ậ chỉ quan tâm đến để đánh giá các phương pháp trên. Độ chính xác cu i cùng cố ủa phương pháp trên được xác định là bình quân của các độ chính xác cho toàn b các tin trong t p d u th nghi m: ộ ậ ữliệ ử ệ
(4. )21
M t vài thông s ộ ố được dùng để xác định độ quan tr ng c a các thành ph n khi các thành ọ ủ ầ phần này được k t hế ợp với nhau. Trong th c nghi m này, ự ệ luận án l a ch n giá tr các tham s ự ọ ị ố trên cơ sở phân tích d li u v các th c th , quan h , t n su t xu t hi n theo c thù mi n ng ữ ệ ề ự ể ệ ầ ấ ấ ệ đặ ề ứ d ng. Ví d : ụ ụ
• Trọng s ố c a các quan h ủ ệ trong ontology để tính được thi t l p dế ậ ựa trên việc phân tích mức độ liên k t hay k t n i các th c th c a quan h ế ế ố ự ể ủ ệ đó trong lĩnh vực th ể thao, như đã phân tích ở m c 4.3.1.1 a): ụ , ,
, …
• và là hai tham s ố được dùng khi k t hế ợp hai phép đo độ tương đồng v ng ề ữ nghĩa với độ tương đồng v n i dung gi a các tin. ề ộ ữ Trên quan điểm cho r ng v i ằ ớ các tin t c th thao mứ ể ức độ ảnh hưởng của độ tương đồng nội dung là cơ sở, độ tương đồng ng ữ nghĩa đóng vai trò b tr , tác gi l a ch n ổ ợ ả ự ọ .
4.4.2 K t qu ế ảthử nghiệm và đánh giá
Sau khi ch y 3 ạ phương pháp riêng biệt cho t p ậ chứa 100 tin như là kịch b n th nghiả ử ệm đã trình bày trong mục 4.4.1, k t qu ế ả độ chính xác thu được c a mủ ỗi phương pháp thể ệ hi n trong B ng 4.1. ả
B ng 4.1.ả Độ chính xác g i ý tin tợ ức trong các trường h pợ
Precision Chỉ ử ụng độ tương đồ s d ng v ng ề ữ nghĩa (semantic-based) 75.8 % Chỉ ử ụng độ tương đồ s d ng v n i dung (ề ộ content-based) 82.2 % K t h p c ế ợ ả hai độ tương đồng (combined) 85.6 % Nhận xét k t qu th nghi m ế ả ử ệ
B ng 4.1 ch ra rả ỉ ằng, đối v i b d u ki m th A chớ ộ ữ liệ ể ử ứa 100 tin, thì phương pháp gợi ý
semantic-basedcó độ chính xác không t t bố ằng phương pháp gợi ý content-based. Trong khi đó, nếu k t h p c ế ợ ả hai độ tương đồng mang l i k t qu t t nhạ ế ả ố ất. Điều này có th ể được gi i thích ả như sau:
• Khi ch s dỉ ử ụng độ tương đồng v ngề ữnghĩa (hướng semantic-based), ch y u d a vào ủ ế ự các th c th xu t hiự ể ấ ện trong tin. Do đó, trong mộ ố trườt s ng h p, thu t toán gợ ậ ợi ý đúng các tin v các th c th ề ự ể liên quan nhưng chủđề hoàn toàn khác. Đố ới v i m t s c ng tác ộ ố ộ viên, h s ọ ẽ xem như là không liên quan.
• Theo hướng content-based, ch củ đề ủa tin được gợi ý thường khá sát v i tin m c tiêu. ớ ụ Tuy nhiên, phương pháp này không có khả năng mở ộ r ng ch . Nủ đề ếu ta có hai tin đều v câu l c b Barcề ạ ộ elona, trong đó tin thứ nh t nói v vi c ấ ề ệ thi đấu c a câu l c b và tin ủ ạ ộ thứ hai l i nói v vi c chuyạ ề ệ ển nhượng c u th c a câu l c b , thì ầ ủ ủ ạ ộ hướng content-based
106
• Khi k t h p c ế ợ ả hai độ tương đồng v n i dung và ng ề ộ ữ nghĩa, thì các tin được g i ý s ợ ẽ kh c phắ ục được nh ng h n ch c a mữ ạ ế ủ ỗi độ đo riêng biệt, dẫn đến g i ý tin hi u qu ợ ệ ả hơn.
4.5 K t lu n ế ậ chương
Chương này đã trình bày một phương pháp gợi ý tin t c d a trên k t hứ ự ế ợp độ tương đồng v ề n i dung và ng ộ ữ nghĩa của tin. Độ đo dựa vào ng ữ nghĩa được tính d a vào m i quan h ng ự ố ệ ữ nghĩa giữa các đối tượng. Nó cho phép vi c g i ý không ch d ng g i ý nh ng tin cùng ch ệ ợ ỉ ừ ở ợ ữ ủ đề ho c nh ng tin xoay quanh ch chính c a tin m c tiêu, mà còn có kh ặ ữ ủ đề ủ ụ ả năng suy diễn để g i ý nh ng tin nói v các th c th ợ ữ ề ự ể (đối tượng) khác mà các th c th này có quan h ng ự ể ệ ữ nghĩa v i các th c th trong m c tin mớ ự ể ụ ục tiêu. Tuy nhiên, đo độ tương đồng ch y u t p trung vào ủ ế ậ các th c th ự ể mà không đề ậ ớ c p t i ng c nh mà tin nhữ ả ắc đến. Độ đo dựa vào n i dung s khộ ẽ ắc phục nhược điểm trên của độ đo ngữ nghĩa bằng cách trích xu t trong tin nh ng t có ch s ấ ữ ừ ỉ ố TF-IDF cao nh t và nh ng t ấ ữ ừ này thường là nh ng t ữ ừ đặc trưng cho ngữ ảnh chính đượ c c nh c ắ đến trong tin.
Luận án đã đánh giá và so sánh độ chính xác của phương pháp đề xuất và phương pháp gợi ý khi ch s d ng riêng l t ng loỉ ử ụ ẻ ừ ại tương đồng. K t qu ế ảthử nghi m cho th y vi c k t h p hai ệ ấ ệ ế ợ độ tương đồng s giúp cho nâng cao hi u qu c a c ẽ ệ ả ủ ả hai phương pháp, đồng th i mờ ỗi phương pháp l i kh c phạ ắ ục được điểm y u cế ủa phương pháp kia, cuối cùng làm tăng hiệu qu c a viả ủ ệc g i ý tin. K t qu nghiên c u nói trên c a luợ ế ả ứ ủ ận án đã được công b ố trong bài báo “Semantic- Based Recommendation Method for Sport News Aggregation System” tạ ội h i ngh qu c t ị ố ếthe 2016 International Conference on Research and Practical Issues of Enterprise Information Systems (CONFENIS 2016).
Tuy nhiên, phương pháp đề xu t v n còn t n t i m t s ấ ẫ ồ ạ ộ ố điểm h n chạ ếnhư phụ thuộc vào độ đầy đủ ủa cơ sở c tri th c và ontology. Viứ ệc xác định các b tr ng s sao cho vi c k t h p các ộ ọ ố ệ ế ợ độ đo đạt được hi u qu cao nhệ ả ất cũng là một vấn đề khó khăn cần gi i quyả ết của phương pháp và đó cũng là nhiệm v c a nh ng nghiên c u sau này. ụ ủ ữ ứ
107
KẾT LUẬN
Căn cứ vào các chương đã trình bày trong luận án, phần này tổng kết những kết quả đạt được, đồng thời đưa ra các hạn chế chưa giải quyết được, và đề xuấthướng phát triển tiếp theo. Các k t qu ế ả đạt được c a lu n án ủ ậ
Web ngữ nghĩa là mở rộng của Web hiện tại ở đó thông tin được bổ sung ý nghĩa rõ ràng, hỗ trợ máy và con người cộng tác với nhau tốt hơn. Với dữ liệu được định nghĩa và liên kết trên Web ngữ nghĩa, máy tính có thể xử lý, chuyển đổi, lắp ráp, tái sử dụng và tích hợp chúng qua các ứng dụng khác nhau.
Thực tế chứng tỏ rằng Web ngữ nghĩa có thể thể hiện những điểm mạnh của mình khi được áp dụng vào những lĩnh vực thông tin bị giới hạn, ví dụ quản lý tri thức, phát triển những dịch vụ Web có ngữ nghĩa. Với sự hỗ trợ của Web ngữ nghĩa, thông tin mong muốn được tìm ra nhanh hơn và chính xác hơn. Web ngữ nghĩa cũng hỗ trợ tích hợp dữ liệu liên kết từ nhiều nguồn, tìm kiếm động các dữ liệu sẵn có và các nguồn dữ liệu.
Luận án tận dụng những ưu điểm vượt trội của Web ngữ nghĩa như tìm kiếm tốt hơn, tổ chức,sắp xếp, trực quan hóa một cách tự động. Luận án đã ứng dụng công nghệ eb ngữ nghĩaW để xây dựng mô hình ngữ nghĩa trong hệ thống tổng hợp tin tức thể thao được đặt tên là BKSport. Đối với người dùng, hệ thống hoạt động như trang tin tức thông thường mà ở đó người dùng có thể xem tin tức tổng hợp từ một số nguồn tin cậy và được hỗ trợ tính năng tìm kiếm và gợi ý tin tức.
Các đóng góp chính của uận án như sau:l
Thứ nhất, luận án đề xuất một số phương pháp sinh chú thích ngữ nghĩa cho các tin tức thể thao bằng văn bản một cách tự động.
Ý tưởng cơ bản xuyên suốt là sử dụng ontology và cơ sở tri thức để nhận dạng và xác định lớp cho các thực thể có tên. Một số kỹ thuật được luận án đề xuất để nâng cao hiệu quả của tác vụ này là phát hiện bí danh thực thể, xác định các thực thể ở mức khái niệm chi tiết, cải tiến xác định thực thể có tên ở dạng rút gọn, xác định thực thể cùng tên khác kiểu.
Sau đó dựa trên việc xây dựng các luật trích chọn mà các thực thể có tên là một thành phần, luận án nhận dạng và sinh thành công các dạng thức ngữ nghĩa khác nhau của tin tức thể thao bao gồm ngữ nghĩa bộ ba đơn giản để diễn tả các sự kiện, ngữ nghĩa về thực thể quan trọng trong tin tức, và một số ngữ nghĩa phức tạp như tuyên bố gián tiếp, xử lý đại từ, ngữ nghĩa chuyển nhượng.
Thứ hai, luận án đề xuất phương pháp chuyển đổi câu hỏi bằng ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa được biểu diễn ở dạng thức SPARQL. Truy vấn này được dùng để thực hiện tìm kiếm ngữ nghĩa. Từ đó, hệ thống thực hiện được tìm kiếm sử dụng mô tơ tìm kiếm ngữ nghĩa. Luận án đã xây dựng một mô hình ngữ nghĩa để biểu diễn truy vấn SPARQL cần sinh ra. Mô hình này có khả năng diễn đạt một số dạng câu hỏi phức tạp như câu hỏi so sánh hơn, so sánh hơn nhất, câu hỏi có nhiều chủ ngữ, tân ngữ. Nội dung cốt lõi của phương pháp nằm ở việc ánh xạ các kết quả của việc phân tích cú pháp vào quá trình sinh truy vấn trung gian cũng như hoàn chỉnh câu truy vấn. Cơ sở tri thức và ontology được khai thác để xác định thực thể có tên, thuộc tính, lớp. Luận án đề xuất các kỹ thuật xử lý cụ thể để xác định các thành phần định nghĩa trong mô hình ngữ nghĩa tương ứng với các dạng câu hỏi khác nhau. Kết quả thực nghiệm cho thấy phương pháp sinh được nhiều dạng câu hỏi với độ chính xác cao phù hợp với lĩnh vực thể thao.
Thứ ba, luận án đã đưa ra độ đo tương đồng giữa hai tin tức trên cơ sở kết hợp độ liên quan ngữ nghĩa và độ tương đồng nội dung. Khác với độ tương đồng nội dung được tính dựa trên phương pháp truyền thống, độ liên quan ngữ nghĩa giữa hai tin tức là sự kết hợp của các độ liên quan ngữ nghĩa giữa các thực thể, độ tương đồng về kiểu thực thể, độ tương đồng về chú thích ngữ nghĩa của hai tin. Dựa trên độ đo nói trên, luận án phát triển phương pháp gợi ý tin tức thể thao dựa trên ngữ nghĩa.
108
Mặc dù luận án có mục tiêu tìm ra những phương pháp mới nhằm xây dựng hệ thống tổng hợp tin tức đem lại hiệu quả và sự thân thiện người dùng trong việc truy cập thông tin trong lĩnh vực thể thao, giá trị ứng dụng của kết quả nghiên cứu đạt được không giới hạn trong lĩnh vực này. Một số giai đoạn trong các phương pháp đề xuất trên có thể được áp dụng trong các lĩnh vực khác và có thể đem lại kết quả nếu ontology và cơ sở tri thức được xây dựng tốt cho lĩnh vực mới. Cụ thể hơn, trong số các thuật toán sinh chú thích ngữ nghĩa tự động cho tin tức, thuật toán phát hiện các ngữ nghĩa bộ ba đơn giản, tuyên bố gián tiếp và các thực thể quan trọng trong tin tức không quá phụ thuộc vào những đặc thù cụ thể của miền lĩnh vực, ngoài việc sử dụng một cơ sở tri thức. Trong nghiên cứu thứ hai, bài toán chuyển đổi câu hỏi diễn đạt bằng ngôn ngữ tự nhiên sang truy vấn SPARQL phụ thuộc khá nhiều vào các kiểu câu hỏi với ngữ nghĩa đặc thù trong lĩnh vực thể thao. Tuy nhiên, với một số dạng câu hỏi về tin tức (tài liệu) liên quan một hay nhiều thực thể, quan hệ giữa hai thực thể, phương pháp đề xuất có thể chuyển đổi thành công khi chuyển sang lĩnh vực khác. Yếu tố đặc thù miền có ảnh hưởng tới độ tương đồng giữa các tin tức mà luận án đề xuất trong nghiên cứu thứ ba chủ yếu liên quan đến các trọng số xếp hạng độ quan trọng của các quan hệ ngữ nghĩa. Do đó khi áp dụng sang một lĩnh vực khác, phương pháp này hoàn toàn có khả năng áp dụng khi các trọng số này được cập nhật.
Tóm lại kết quả của luận án đã đáp ứng được mục tiêu nghiên cứu đặt ra ban đầu. Những kết quả của luận án được thể hiện trong các công trình công bố trên các tạp chí và hội thảo chuyên ngành có phản biện trong và ngoài nước, cũng như được minh h a trên h ọ ệthống t ng ổ h p tin tợ ức BKSport đã được tri n khai trong ể thự ếc t .
Hướng phát tri n ể
Luận án đã đề xuất các phương pháp về sinh chú thích ngữ nghĩa, tìm kiếm ngữ nghĩa với câu hỏi bằng ngôn ngự nhiên, và gợi ý dựa trên ngữ nghĩa. Các phương pháp đề xuất đã đạt được một số kết quả nhất định bước đầu. Với mong muốn đưa ra một giải pháp tương đối hoàn thiện cho bài toán xây dựng hệ thống tổng hợp tin tức, luận án quan tâm đến nhiều vấn đề nghiên cứu và chắc chắn còn nhiều công việc nghiên cứu cần được thực hiện trong tương lai. Dưới đây là một số hướng nghiên cứu tiếp theo của luận án.
Trong quy trình tổng thể của hệ thống, chất lượng của tin tức đầu vào có ảnh hưởng quan trọng tới hiệu quả của các bước xử lý phía sau. Luận án cần nâng cao chất lượng của bộ thu