Xử lý dữ liệu lớn của Wikipedia

Một phần của tài liệu Rút trích tri thức ngữ nghĩa từ tên thể loại wikipedia (Trang 50)

Trong phạm vi giới hạn về thời gian, phần cứng máy tính chưa mạnh và việc xử lý dữ liệu lớn, luận văn chưa thực nghiệm được trên dữ liệu đầy đủ của Wikipedia. Tuy nhiên, tác giả đã tìm hiểu và xử lý bước đầu cho việc xử lý dữ liệu lớn - dữ liệu đầy đủ của Wikipedia. Cụ thể là đã tải về các tập tin dữ liệu của Wikipedia dưới dạng sql và thực hiện dump sql và cơ sở dữ liệu MySQL.

Tải về dữ liệu Wikipedia cập nhật ngày 06 tháng 11 năm 2014: http://dumps.wikimedia.org/enwiki/20141106/

 enwiki-20141106-page.sql.gz 1.1 GB

 enwiki-20141106-category.sql.gz 27.2 MB

 enwiki-20141106-categorylinks.sql.gz 1.4 GB

Sau khi tải về, giải nén và thực hiện dump sql (vì dữ liệu lớn không thể import trực tiếp vào cơ sở dữ liệu) có được kết quả dữ liệu như sau:

Hình 4.12 Dữ liệu Wikipedia 20141106

Dung lượng của ba bảng ‘page’, ‘categorylinks’ và ‘category’ trong cơ sở dữ liệu MySQL chiếm khoảng 22 GB. Với dữ liệu này, chương trình phân tích và tính toán viết bằng ngôn ngữ Java không thực thi được, lỗi timeout vì dữ liệu quá lớn.

Giải pháp đầu tiên là giảm bớt số lượng category không cần thiết – là các thể loại quản trị của Wikipedia (administrative category), bằng cách thống kê số page của category và chọn ngưỡng giới hạn.

Hình 4.13 Thống kê để giới hạn dữ liệu

Sau khi chọn ngưỡng số trang, việc tiếp theo là xử lý chọn những thể loại có chứa bài viết và loại bỏ những thể loại khác. Cách này có thể giảm nhiều số lượng cần xử lý. Hướng xử lý tiếp theo là dùng các công nghệ xử lý dữ liệu lớn để xử lý và tính toán truy xuất dữ liệu. Định hướng có thể dụng công nghệ Hadoop và Map- Reduce để giảm thời gian xử lý.

CHƯƠNG 5. ĐÁNH GIÁ 5.1 Đánh giá kết quả thực nghiệm

Để so sánh đánh giá độ tương quan của các đặc trưng với đánh giá của con người, trên các tập dữ liệu WS353 và TSA287, luận văn tính các độ tương quan. Đầu tiên là chỉ tính với độ liên quan chuẩn là các độ đo WordNet, sau đó thêm các đặc trưng ngữ nghĩa vào và tính độ tương quan.

Bảng 5.1 Độ tương quan của các đặc trưng với đánh giá của con người

Độ đo WS353 TSA287 WN 0.2806 0.3655 WN + NR1 0.2776 0.3596 WN + Leftness1 0.2767 0.3672 WN + NR2 0.2791 0.3667 WN + Leftness2 0.2779 0.3673

Dữ liệu trong bảng 5.1 trình bày các hệ số tương quan của các đặc trưng ngữ nghĩa với các giá trị đánh giá của con người. Kết quả thực hiện cao nhấtlà 0.3673 khi kết hợp các độ đo WordNet với đặc trưng leftness2, kết quả này lớn hơn so với khi chỉ sử dụng các độ đo WordNet mặc dù chưa sự chênh lệnh chưa nhiều ; dữ liệu này có ý nghĩa thống kê, được kiểm định t hai đuôi (2 tailed t-test) với độ tin cậy 95% (mức ý nghĩa 𝛼 = 0.05).

5.2 Đánh giá chung

Với cách tiếp cận của luận văn là phân tích thông tin phân cấp và ngữ nghĩa của hệ thống thể loại Wikipedia gồm các tên thể loại và tiêu đề bài viết, nên việc xử lý toàn bộ nội dung bài viết là không cần thiết. Điều này làm cho quá trình xử lý nhanh và hiệu quả, ít tốn chi phí hơn so với các công trình nghiên cứu phải xử lý

toàn bộ nội dung thông tin bài viết hoặc nội dung các infobox trong trang Wikipedia.

Các đặc trưng ngữ nghĩa rút trích hệ thống tên thể loại Wikipedia có thể được sử dụng trong các thuật toán học máy có giám sát để rút trích thông tin từ cơ sở tri thức bán cấu trúc như Wikipedia.

CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Từ chương 1 đến chương 5, luận văn đã trình bày toàn bộ nghiên cứu của để tài về rút trích tri thức ngữ nghĩa từ tên loại Wikipedi và áp dụng vào ứng dụng mở rộng truy vấn. Các chương đầu lần lượt cung cấp cơ sở lý thuyết làm cơ sở cho toàn bộ các phương pháp phân tích rút trích tri thức ngữ nghĩa từ hệ thống phân cấp thể loại Wikipedia được trình bày ở các chương tiếp theo. Các chương kế tiếp đề xuất mô hình, phương pháp cũng như những giải thuật xử lý phù hợp dựa trên cơ sở lý thuyết đã được trình bày ở các chương trước. Những nội dung được trình bày ở các chương đã bám sát mục tiêu đề ra. Điều này cũng thể hiện thông qua những kết quả đạt được về mặt lý thuyết và thực tiễn của luận văn. Các kết quả nghiên cứu của luận văn đã góp phần xác định những vấn đề cần nghiên cứu, phát triển trong thời gian tới.

6.1 Kết luận

Luận văn này đã kế thừa và cải tiến phương pháp để trích xuất thông tin hữu ích từ Wikipedia, sử dụng tính năng ngữ nghĩa được lấy từ hệ thống tên thể loại của Wikipedia. Phương pháp này cho kết quả khả quan. Các đặc trưng ngữ nghĩa lấy được từ phương pháp này có mối tương quan tốt với đánh giá của con người.

Từ việc khảo sát, phân tích cấu trúc thể loại và tài liệu lưu trữ trong Wikipedia, luận văn đã thực hiện phương pháp khai thác rút trích các đặc trưng ngữ nghĩa từ tên thể loại. Phát triển trên cơ sở kế thừa một phương pháp rút trích ngữ nghĩa từ tên thể loại, dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia. Kết quả thực nghiệm, đánh giá cho thấy phương pháp đề xuất là khả quan, có ý nghĩa thực tiễn.

Đóng góp của luận văn là xác định độ tương quan giữa các bài viết trên Wikipedia bằng cách áp dụng các độ đo khác nhau dựa trên WordNet. Luận văn

cũng thực hiện ứng dụng mô phỏng việc sử dụng các đặc trưng rút trích từ Wikipedia bằng ứng dụng mở rộng truy vấn.

Kết quả khoa học của luận văn là luận văn đã áp dụng một hướng tiếp cận kết hợp giữa WordNet và đặc trưng wikipedia để đánh giá độ tương đồng giữa các khái niệm.

6.2Hướng phát triển

Trong khoảng thời gian giới hạn, luận văn đã thực hiện được các bài toán đặt ra. Tuy nhiên, một số vấn đề cần được nghiên cứu trong giai đoạn tiếp theo:

- Cải tiến công thức tính đặc trưng Wikipedia để truy xuất các từ tương đồng có độ chính xác cao hơn.

- Tối ưu các thuật giải, để xử lý dữ liệu lớn trong quá trình thực nghiệm và đánh giá.

- Hiệu chỉnh một số bước tiền xử lý để có thể áp dụng cho tiếng Việt hoặc ngôn ngữ khác. Cụ thể như là việc phân đoạn từ và gán nhãn từ loại cho truy vấn tiếng Việt.

Nhìn chung, các vấn đề trên là tập hợp những bài toán không quá phức tạp nhưng cần được xem xét và nghiên cứu trong tương lai, để có thể hỗ trợ cho việc rút trích thông tin ngữ nghĩa tiếng Việt từ Wikipedia và xây dựng một hệ thống truy xuất thông tin hướng ngữ nghĩa cho tiếng Việt.

TÀI LIỆU THAM KHẢO

- Tiếng Việt:

[1]. Nguyễn Chánh Thành. (2010). Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản. Luận văn Tiến sĩ Kỹ thuật. Chuyên ngành Khoa học máy tính, Đại học Bách khoa tp HCM.

[2]. Nguyễn Quang Châu, Phan Thị Tươi. (2008). Nhận diện cụm từ đặc trưng ngữ nghĩa trong tiếng Việt. Tạp chí Bưu chính Viễn thông và Công nghệ thông tin, số19, 2/2008.

[3]. Trần Mai Vũ. (2009). Tóm tắt đa văn bản dựa vào trích xuất câu. Luận văn Thạc sĩ. Đại học Công nghệ, Đại học quốc gia Hà Nội.

- Tiếng Anh:

[4]. D. Milne and I. H. Witten. (2008). An effective, low-cost measure of semantic relatedness obtained from wikipedia links. In In Proceedings of AAAI 2008.

[5]. F. M. Suchanek, G. Kasneci, and G. Weikum. (2007). ‘Yago: a core of semantic knowledge’. In Proceedings of the 16th international conference on World Wide Web, WWW ’07, pages 697–706, New York, NY, USA, 2007. ACM.

[6]. F. Wu and D. S. Weld. (2007). ‘Autonomously semantifying wikipedia’. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 41–50, New York, NY, USA, 2007. ACM.

[7]. Hien Thanh Nguyen, Tru Hoang Cao. (2010). ‘Enriching Ontologies for Named Entity Disambiguation’. SEMAPRO 2010 : The Fourth International Conference on Advances in Semantic Processing, Vietnam.

[8]. Jun Cui. (2009). ‘Query Expansion Research and Application in Search Engine Based on Concepts Lattice’. Master Thesis in Computer Science, Thesis no: MCS-2009: 28. School of Computing, Blekinge Institute of Technology, Soft Center, SE-37225 RONNEBY, SWEDEN. [9]. K. Gyllstrom and M.-F. Moens. (2011). ‘Examining the “leftness”

property of wikipedia categories’. In Proceedings of the 20th ACM international conference on Information and knowledge management, CIKM ’11, pages 2309–2312, New York, USA, 2011. ACM.

[10]. K. Radinsky, E. Agichtein, E. Gabrilovich, and S. Markovitch. (2011). ‘A word at a time: computing word relatedness using temporal semantic analysis’. In Proceedings of the 20th international conference on World wide web, WWW’11, pages 337–346, New York, NY, USA, 2011. ACM [11]. L. Finkelstein, E. Gabrilovich, Y. Matias, E. Rivlin, Z. Solan, G.

Wolfman, and E. Ruppin. (2001). ‘Placing search in context: the concept revisited’. In WWW, pages 406–414, 2001

[12]. Maria Ruiz-Casado, Enrique Alfonseca and Pablo Castells. (2007). ‘Automatic extraction of semantic relationships for WordNet by means of pattern learning from Wikipedia’. 186 Data & Knowledge Engineering archive, Volume 61, Issue 3 (June 2007), pp.484-499. 2007. ISSN: 0169- 023X

[13]. Priya Radhakrishnan, Vasudeva Varma. (2013). ‘Extracting Semantic Knowledge from Wikipedia Category Names’. The 3rd Wordshop on Knowledge Extraction at CIKM 2013, San Francisco.

[14]. Strube, M. & S. P. Ponzetto (2006). ‘WikiRelate! Computing semantic relatedness using Wikipedia’, In Proc. of AAAI-06, 2006.

[15]. S. Banerjee and T. Pedersen. (2003). ‘Extended gloss overlaps as a measure of semantic relatedness’. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, pages 805–810, 2003.

[16]. T. Zesch and I. Gurevych. (2007). ‘Analysis of the wikipedia category graph for nlp applications’. In Proceedings of the TextGraphs-2 Workshop, NAACL-HLT, pages 1–8, Rochester, Apr. 2007. Association for Computational Linguistics

- Trang web:

[17]. Ask, http://www.ask.com/ [18]. Bing, http://www.bing.com/

[19]. Dữ liệu TSA287: http://www.technion.ac.il/~kirar/Datasets.html [20]. Dữ liệu

WS353: http://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/ [21]. Gate UK, http://gate.ac.uk

[22]. Google, http://www.google.com

[23]. Microsoft Corporation, http://www.microsoft.com

[24]. Support Vector Machines, http://www.support-vector.net [25]. Wikipedia dump: http://dumps.wikimedia.org/enwiki/latest/ [26]. Wordnet, http://wordnet.princeton.edu/

[27]. XML, http://www.w3.org/XML [28]. Yahoo, http://www.yahoo.com

PHỤ LỤC

Phụ lục A. Tóm lược về Wikipedia

Wikipedia là một bách khoa toàn thư mở, là thành quả cộng tác của chính những người đọc từ khắp nơi trên thế giới. Trang mạng này tất cả mọi người đều có thể sửa đổi ở bất cứ trang nào bằng cách bấm vào các liên kết “sửa đổi” có ở hầu hết các trang, ngoại trừ những trang bị khóa.

Wikipedia chính thức bắt đầu vào ngày 15 tháng 1 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger, chỉ có phiên bản tiếng Anh. Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6.000 người đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng. Cho đến hôm nay đã có hơn 4.300.000 bài viết ở riêng phiên bản tiếng Anh, hơn 30.000.000 bài viết ở tất cả phiên bản ngôn ngữ. Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới. Hiện tại, hệ thống Wikipedia đã có 427.009 thành viên đăng ký, trong đó 26 bảo quản viên, 3 hành chính viên, 214 robot.

Biểu trưng của Wikipedia là "quả bóng ghép chữ", hiện nay thuộc bản quyền của Quỹ hỗ trợ Wikimedia.

Phụ lục B. Danh mục từ loại tiếng Anh STT Nhãn

từ loại Tên đầyđủ (tiếng Anh) Ý nghĩa

1 CC Coordinating conjunction Liên từ kết hợp 2 CD Cardinal number Số đếm

3 DT Determiner Định từ

4 EX Existential there “Có”

5 FW Foreign word Từ tiếng nước ngoài 6 IN

Preposition or

subordinating conjunction Giới từ hoặc liên từ

7 JJ Adjective Tính từ

8 JJR Adjective, comparative Tính từ so sánh hơn 9 JJS Adjective, superlative Tính từ so sánh nhất 10 LS List item marker Dấu liệt kê

11 MD Modal Động từ tình thái

12 NN Noun, singular or mass

Danh từ số ít hoặc không đếm được

13 NNS Noun, plural Danh từ số nhiều 14 NNP Proper noun, singular Danh từ riêng số ít 15 NNPS Proper noun, plural Danh từ riêng số nhiều 16 PDT Predeterminer Tiền chỉ định từ

17 POS Possessive ending Dấu sở hữu cách 18 PRP Personal pronoun Đại từ nhân xưng 19 PPS

Possessive pronoun

(prolog version PRP-S) Đại từ sở hữu

20 RB Adverb Trạng từ

21 RBR Adverb, comparative Trạng từ so sánh hơn 22 RBS Adverb, superlative Trạng từ so sánh nhất

23 RP Particle Tiểu từ

24 SYM Symbol Ký hiệu

25 TO to “to”

26 UH Interjection Thán từ

27 VB Verb, base form Động từ nguyên mẫu không to 28 VBD Verb, past tense Động từ thì quá khứ

29 VBG

Verb, gerund or present

participle Hiện tại phân từ 30 VBN Verb, past participle Quá khứ phân từ 31 VBP

Verb, non-3rd person singular present

Động từ không phải ngôi thứ 3 số ít

32 VBZ

Verb, 3rd person singular

present Động từ ngôi thứ 3 số ít 33 WDT Wh-determiner Định từ bắt đầu bằng Wh- 34 WP Wh-pronoun Đại từ bắt đầu bằng Wh- 35 WPZ

Possessive wh-pronoun

(prolog version WP-S) Đại từ sở hữu bắt đầu bằng Wh- 36 WRB Wh-adverb Trạng từ bắt đầu bằng Wh- 37 ADJP Adjective Phrase. Cụm tính từ

38 NP Noun Phrase Cụm danh từ

39 VP Verb Phrase Cụm động từ

40 ADVP Adverb Phrase Cụm trạng từ 41 CONJP Conjunction Phrase Cụm liên từ

42 RRC Reduced Relative Clause Mệnh đề tương đối thu giảm 43 UCP Unlike Coordinated Phrase Cụm phối hợp khác

44 WHADJP Wh-adjective Phrase Cụm tính từ bắt đầu với Wh- 45 WHAVP Wh-adverb Phrase Cụm trạng từ bắt đầu với Wh- 46 WHNP Wh-noun Phrase Cụm danh từ bắt đầu với Wh

47 WHPP Wh-prepositional Phrase Cụm giới từ bắt đầu với Wh- 48 PP Prepositional Phrase Cụm giới từ

Một phần của tài liệu Rút trích tri thức ngữ nghĩa từ tên thể loại wikipedia (Trang 50)

Tải bản đầy đủ (PDF)

(63 trang)