Nhận biết chủ đề tài liệu dựa trên wikipedia

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ CỦA TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI TP HỒ CHÍ MINH, tháng năm 2015 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS.TSKH Nguyễn Xuân Huy PGS.TS Lê Hoài Bắc PGS.TS Quản Thành Thơ TS Vũ Thanh Hiền TS Cao Tùng Anh Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 11 tháng năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ HOÀNG OANH Giới tính: Nữ Ngày, tháng, năm sinh: 09/03/1985 Nơi sinh: Cần Thơ Chuyên ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo III- Ngày giao nhiệm vụ: 18/8/2014 IV- Ngày hoàn thành nhiệm vụ: V- Cán hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS Nguyễn Chánh Thành TS Lê Mạnh Hải CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Lê Hoàng Oanh ii LỜI CÁM ƠN Lời cảm ơn chân thành em xin gởi Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trƣờng Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho em học tập nghiên cứu suốt học trình cao học Với lòng tri ân sâu sắc, em muốn nói lời cảm ơn chân thành đến TS Nguyễn Chánh Thành TS Lê Mạnh Hải tận tụy nghiêm túc hƣớng dẫn em trình thực nghiên cứu Em xin chân thành cảm ơn Quý thầy cô trƣờng tận tâm dạy bảo em suốt trình học tập giúp đỡ em suốt trình nghiên cứu Em xin chân thành cảm ơn ngƣời thân yêu gia đình anh chị em, bạn bè, đồng nghiệp giúp đỡ động viên em trình thực hoàn thành luận văn Học viên thực Luận văn (ký ghi rõ họ tên) LÊ HOÀNG OANH iii TÓM TẮT (Tóm tắt nội dung LV Tiếng Việt) Wikipedia bách khoa toàn thƣ tự do, kết cộng tác ngƣời đọc từ khắp nơi giới Mục tiêu phát triển Wikipedia nâng cao chất lƣợng viết, thêm nhiều viết chọn lọc, viết chất lƣợng ngày thu hút nhiều thành viên tham gia Với số lƣợng viết ngày gia tăng việc tìm kiếm báo nhƣ mong muốn khó khăn tốn nhiều thời gian Chẳng hạn, ngƣời dùng muốn tìm kiếm thông tin kết thƣờng trả nhiều danh mục có chứa thông tin Vậy làm để kết trả danh mục phù hợp mà tất danh mục có chứa thông tin Việc đặt thách thức cho luận văn tìm kiếm giải pháp giúp nhận diện đƣợc danh mục có trọng số cao phù hợp với thông tin cần tìm kiếm Chính thế, nghiên cứu trình bày thuật toán đƣợc sử dụng để khai thác tiêu đề phân nhóm tiêu đề Wikipedia Giúp cho việc tìm danh mục phù hợp với báo cách tự động đạt độ xác cao iv ABSTRACT (Tóm tắt nội dung LV tiếng Anh) Wikipedia is a free encyclopedia, as a result of the collaboration of the readers from all over the world The objective of development of Wikipedia is to improve the quality of articles; add more selected articles, quality articles and increasingly attract more participants As regards the increasing number of articles these days, it is very difficult and time-consuming to find a specific article For instance, when a user wants to search some information, the results are often returned a lot of catalogues containing that information Thus, how the results are returned the most relevant catalogues related to information instead of all catalogues This is sue has rise to the challenge to the thesis for seeking a solution identifying the most significant catalogue being suitable for the required information Therefore, in this study, we will represent an algorithm used to exploit only the titles and divide titles into many groups in Wikipedia This helps to find the suitable catalogues to the articles automatically and accurately v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC iv Danh mục từ viết tắt vii Danh mục bảng ix Danh mục biểu đồ, đồ thị, sơ đồ, hình ảnh x CHƢƠNG MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu, nội dung phƣơng pháp nghiên cứu 1.2.1 Mục tiêu nghiên cứu 1.2.2 Nội dung nghiên cứu 1.2.3 Phương pháp nghiên cứu 1.3 Cấu trúc luận văn CHƢƠNG NGHIÊN CỨU TỔNG QUAN 2.1 Tình hình nghiên cứu giới 2.2 Tình hình nghiên cứu nƣớc 2.3 Tóm lƣợc CHƢƠNG PHƢƠNG PHÁP NHẬN BIẾT VÀ RÚT TRÍCH CHỦ ĐỀ 10 3.1 Khái niệm Wikipedia 11 3.1.1 Những ƣu điểm mô hình Web Wiki 14 3.1.2 Wikipedia hoạt động nhƣ 17 3.1.3 Kiểu cách định dạng 17 3.1.4 Thực thể Wikipedia 18 vi 3.1.6 Thể loại 20 3.1.7 Kiến trúc Wikipedia 23 3.2 Phƣơng pháp nghiên cứu đề nghị 24 3.2.1 Hƣớng nghiên cứu luận văn 24 3.2.2 Việc chuẩn bị thu thập 25 3.2.3 Nhận diện chủ đề tài liệu 26 3.3 Một số cải thiện phƣơng pháp đề xuất 30 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Tiến hành thực nghiệm 33 4.1.1 Môi trƣờng thực nghiệm 33 4.1.2 Nguồn liệu 33 4.1.3 Cấu trúc sở liệu 36 4.2 Thực chƣơng trình 38 4.2.1 Gỡ bỏ từ vô nghĩa 38 4.2.2 Tính trọng số từ tài liệu 39 4.2.3 Tính trọng số tiêu đề tài liệu 39 4.2.4 Tính trọng số cao tài liệu 41 4.2.5 Tính trọng số danh mục 42 4.2.6 Chọn danh mục phù hợp cho báo với trọng số chúng 42 4.3 Chƣơng trình thực nghiệm 42 4.4 Trƣờng hợp thành công thất bại 43 4.5 Đánh giá 44 4.5.1 Dữ liệu đánh giá 44 4.5.2 Độ xác chƣơng trình 45 4.6 Độ phản hồi chƣơng trình 50 4.7 Kết luận 53 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 53 44 không đáp ứng đủ bảy bƣớc thí nghiệm thất bại Và điểm yếu thuật toán xử lý phức tạp, rƣờm rà Rt : t : R : 3.70774243398595 at : 15 St : Lt : strTitle: Anarchism Rt : t : R : at : St : Lt : strTitle: AfghanistanHistory Rt : t : R : at : St : Lt : strTitle: AfghanistanGeography Rt : t : R : at : St : Lt : strTitle: AfghanistanPeople Rt : t : R : at : St : Lt : strTitle: AfghanistanCommunications Rt : t : R : at : St : Lt : strTitle: AfghanistanTransportations Rt : t : R : at : St : Lt : strTitle: AfghanistanMilitary Rt : t : R : at : St : Lt : strTitle: AfghanistanTransnationalIssues Rt : t : R : at : St : Lt : strTitle: AssistiveTechnology Rt : t : R : at : St : Lt : strTitle: AmoeboidTaxa Rt : t : R : 5.73940755071869 at : 13 St : Lt : strTitle: Autism Rt : t : R : at : St : Lt : strTitle: AlbaniaHistory Rt : t : R : at : St : Lt : strTitle: AlbaniaPeople Rt : t : R : at : St : Lt : strTitle: AsWeMayThink Rt : t : R : at : St : Lt : strTitle: AlbaniaGovernment Rt : t : R : at : St : Lt : strTitle: AlbaniaEconomy Rt : t : R : NaN at : St : Lt : strTitle: Albedo Rt : t : R : at : St : Lt : strTitle: AfroAsiaticLanguages Rt : t : R : at : St : Lt : strTitle: ArtificalLanguages 4.5 Đánh giá 4.5.1 Dữ liệu đánh giá Luận văn đánh giá thuật toán với liệu bao gồm 2588 báo 150435 danh 45 mục, sau thực thuật toán kết đƣợc lƣu vào sở liệu phục vụ cho việc tìm kiếm báo với danh mục tốt Luận văn tiến hành đánh giá thuật toán với liệu 4.5.2 Độ xác chƣơng trình Để đo lƣờng độ xác thuật toán tác giả tính top n danh mục có phần trăm danh mục thức báo Trong top n danh mục có nhiều báo mà danh mục khác lại có trọng số cao danh mục Tác giả dùng câu truy vấn SQL sau để lấy top 10 danh mục có chứa nhiều báo nhất: select top 10 category.cat_id,category.cat_title, count(CatIDMax) as TotalDocument from Document,Cat_Doc,category where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and CatIDMax =category.cat_id group by category.cat_id,category.cat_title order by TotalDocument desc Kết truy vấn nhƣ sau: Mã danh mục, tên danh mục, số lƣợng báo danh mục 46 Để đánh giá độ xác thuật toán tác giả sử dụng công thức sau: U A 100% D Trong : U: Độ xác thuật toán A: Số danh mục thức D: Tổng số danh mục bao gồm danh mục thức danh mục khác báo Tiến hành thực nghiệm với danh mục thứ có ID „65358076‟ tác giả tiến hành kiểm tra xem danh mục thuộc top n có báo có danh mục nhƣng lại có danh mục top n lại có trọng số cao Với câu truy vấnSQL tác giả thu đƣợc kết nhƣ sau: select id,Document.Title,CatIDMax from Document,Cat_Doc,category where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and category.cat_id =65358076 order by CatIDMax 47 Với câu truy vấn kết thu đƣợc 58 danhh mục thức 58 danh mục báo : Với kết ta có đƣợc 58 danh mục thức so với tổng 58 danh mục áp dụng công thức U  A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D U 58 100%  100% 58 Tiến hành thực nghiệm với danh mục thứ có ID „65357824‟ tác giả tiến hành kiểm tra xem danh mục thuộc top n có báo có danh mục nhƣng lại có danh mục top n lại có trọng số cao Với câu truy vấn SQL tác giả thu đƣợc kết nhƣ sau: select id,Document.Title,CatIDMax from Document,Cat_Doc,category 48 where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and category.cat_id =65357824 order by CatIDMax Với câu truy vấn thu đƣợc kết nhƣ sau : Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng công thức U  A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D U  100%  85% Tƣơng tự nhƣ tác giả tiến hành thực nghiệm với mã danh mục „65357288‟ thu đƣợc kết nhƣ sau: Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng công thức U  A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D 49 U  100%  66% Tƣơng tự nhƣ tác giả tiến hành thực nghiệm với mã danh mục „65363217‟ thu đƣợc kết nhƣ sau: Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng công thức U  A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D U  100%  66% Tƣơng tự với hai danh mục lại tác giả thu đƣợc độ xác U 66% Theo thực nghiệm ta có độ xác thuật toán nhƣ sau: Bảng 4.4 Độ xác thuật toán Top 10 danh mục Độ xác Daysthe year 100% Place name disambiguation pages 85% Functional groups 66% Batting statistics 66% Angiosperm orders 66% Độ xác trung bình thuật toán : 76.6% 50 Biểu đồ 4.1 Đánh giá độ xác thuật toán Biểu đồ thể độ xác thuật toán tác giả tiến hành thí nghiệm theo tứ tự danh mục đƣợc lấy bảng 4.4 Trong biểu đồ dòng đƣợc thể theo trục X độ xác thuật toán đƣợc thể theo trục Y Sau nhìn biểu đồ thấy đƣợc độ xác giảm dần theo số lƣợng danh mục Chúng ta dễ dàng thấy đƣợc đƣờng màu đỏ có chiều hƣớng xuống theo số lƣợng danh mục Từ đánh giá ta thấy đƣợc độ xác chƣơng trình cao giúp tăng cƣờng tính tự động phân loại tài liệu 4.6 Độ phản hồi chƣơng trình Độ phản hồi chƣơng trình đƣợc xác định tỉ lệ danh mục thức top n danh mục Độ phản hồi đƣợc tính theo công thức sau: H E  100% F 51 Trong đó: H: Độ phản hồi chƣơng trình E: Số danh mục thức F: Tổng số danh mục Theo kết thực nghiệm tác giả thu đƣợc 84 danh mục có báo Với kết thu đƣợc từ thí nghiệm áp dụng công thức ta có đƣợc độ phản hồi nhƣ sau: Trƣờng hợp lấy top danh mục theo thực nghiệm ta thu đƣợc 58 danh mục thức H 58 100%  69% 84 Trƣờng hợp lấy top danh mục theo thực nghiệm phần ta có thêm danh mục thức áp dụng công thức ta có kết nhƣ sau: H 64 100%  76% 84 Trƣờng hợp lấy top tác giả thu đƣợc thêm danh mục thức áp dụng công thức ta thu đƣợc kết nhƣ sau: H 68 100%  81% 84 Áp dụng cho trƣờng hợp lại tác giả thu đƣợc kết nhƣ bảng sau: Trong top năm danh mục tác giả tính đƣợc độ phản hồi nhƣ sau: 52 Bảng 4.5 Độ phản hồi chƣơng trình Số danh mục Độ phản hồi 69% 76% 81% 86% 91% Trung bình 80.6% Biểu đồ 4.2 Độ phản hồi chƣơng trình Biểu đồ thể độ phản hồi chƣơng trình với liệu thí nghiệm đƣợc lấy từ bảng 4.5 với trục X thể số chủ đề trục Y thể độ phản hồi thuật toán, thấy đƣợc độ phản hồi thuật toán tăng dần theo số lƣợng chủ đề qua chiều tăng dần cột hƣớng lên đƣờng màu đỏ, theo thực nghiệm ta có độ phản hồi trung bình chƣơng trình 80,6% 53 4.7 Kết luận: Phƣơng pháp đƣợc sử dụng túy cho việc phân loại xếp nhóm tiêu đề phân nhóm viết Wikipedia, thuật toán giúp bỏ qua giai đoạn khai thác thông tin phong phú đƣợc cung cấp danh mục viết, bỏ qua đƣờng kết nối tài liệu, cấu trúc phân tầng phân nhóm 54 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn giải đƣợc nhiệm vụ mà luận văn đƣa - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo Qua kết thực nghiệm đạt đƣợc cho thấy đề tài nhận biết chủ đề tài liệu dựa Wikipedia khả thi áp dụng đƣợc Giúp tìm danh mục phù hợp cho báo tự động đạt độ xác cao Bên cạnh đó, hạn chế mặt thời gian kiến thức đề tài hạn chế sau: - Trong số trƣờng hợp, kết thực nghiệm chƣa cao - Đối với liệu lớn thời gian thực tìm danh mục phù hợp cho báo lâu chƣơng trình phức tạp 5.2 Hƣớng phát triển Tìm giải pháp giảm thời gian thực hiện, tăng độ xác tìm kiếm thuật toán đơn giản 55 TÀI LIỆU THAM KHẢO Trong nƣớc [1] Nguyễn Chánh Thành (2010) Xây dựng mô hình mở rộng truy vấn truy xuất thông tin văn bản, Luận án tiến sĩ kỹ thuật Đại học Bách khoa TP.HCM [2] Đinh Quang Định (2013) Nghiên cứu công nghệ Web 3.0 (Semantic Web) khả triển khai áp dụng Học viện công nghệ bƣu viễn thông [3] Phạm Đình Hồng (2013) Nghiên cứu phương pháp phân nhóm liệu động áp dụng vào truy vấn thông tin Đại học Đà Nẵng [4] Nguyễn Thị Bích Phƣơng (2012) Nghiên cứu phương pháp mở rộng truy vấn truy xuất thông tin (Information Retrieval) Học viện công nghệ bƣu viễn thông [5] Nguyễn Đình Bình (2012) Nghiên cứu khai phá liệu web ứng dụng tìm kiếm trích chọn thôn tin theo chủ đề Đại học Đà Nẵng [6] Nguyễn Thị Hồng Nhung, Nguyễn Thị Tuyết Mai Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa [7] Nguyễn Tiến Thanh (2010)- Trích chọn quan hệ thực thể Wikipedia Tiếng Việt dựa vào phân tích cú pháp Trƣờng Đại học Công nghệ [8] Trần Ngọc Phúc (2012) – Phân loại nội dung tài liệu Web Trƣờng Đại học Lạc Hồng Ngoài nƣớc [9] Peter Schönhofen Identifying document topics using the Wikipedia category network Computer and Automation Research Institute Hungarian Academy of Sciences Kende u 13–17, H-1111 Budapest [10] S F Adafre and M de Rijke Discovering missing links in Wikipedia In Proc of the 3rd int‟l workshop on Link discovery, pages 90–97, 2005 56 [11] M Aery, N Ramamurthy, and Y A Aslandogan Topic identification of textual data Technical Report CSE-2003-25, University of Texas at Arlington, Department of Computer Science and Engineering, 2003 [12] D Ahn, V Jijkoun, G Mishne, K Müller, M de Rijke, and S Schlobach Using Wikipedia at the TREC QA track In Proc of the 13rd Text Retrieval Conf (TREC), 2004 [13] R Baeza-Yates and B Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999 [14] F Bellomi and R Bonato Network analysis for Wikipedia In Proc of Wikimania 2005, the 1st Int‟l Wikimedia Conf.,2005 [15] C.-Y Lin Knowledge-based automatic topic identification In Meeting of the Association for Computational Linguistics, pages 308–310, 1995 [16] C.-Y Lin Robust automated topic identification PhD thesis, University of Southern California, 1997 [17] A K McCallum Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering http://www.cs.cmu.edu/˜mccallum/bow, 1996 [18] G Mishne, M de Rijke, and V Jijkoun Using a reference corpus as a user model for focused information retrieval J of Digital Information Management, 3(1):47–52, 2005 [19] R Navigli Automatically extending, pruning and trimming general purpose ontologies In Proc of the 2nd IEEE Int‟l Conf on Systems, Man and Cybernetics, 2002 57 [20] M Ruiz-Casado, E Alfonseca, and P Castells Automatic assignment of Wikipedia encyclopedic entries to wordnet synsets In Proc of the 3rd Int‟l Atlantic Web Intelligence Conf (AWIC), pages 380–386, 2005 [21] M Ruiz-Casado, E Alfonseca, and P Castells Automatic extraction of semantic relationships for wordnet by means of pattern learning from Wikipedia In Proc of the 10th Int‟l Conf on Applications of Natural Language to Information Systems (NLDB), pages 67–79, 2005 [22] H Schmid Probabilistic part-of-speech tagging using decision trees In Proc of the Int‟l Conf on New Methods in Language Processing, Manchester, UK, 1994 [23] B Stein and S M zu Eien Topic identification: Framework and application In Proc of the 4th Int‟l Conf on Knowledge Management (I-KNOW 04), pages 353–360, 2004 [24] S Tiun, R Abdullah, and T E Kong Automatic topic identification using ontology hierarchy In Proc of the 2nd Int‟l Conf on Computational Linguistics and Intelligent Text Processing, pages 444–453, London, UK, 2001 [25] M Völkel, M Krötzsch, D Vrandecic, H Haller, and R Studer Semantic Wikipedia In Proc of the 15th int‟l conf on World Wide Web WWW2006, 2006 [26] J Voss Measuring Wikipedia In Proc of the Int‟l Conf Of the Int‟l Society for Scientometrics and Informetrics, Stockholm, Sweden, 2005 [27] Chau Q Nguyen, Tuoi T Phan An Ontology–Based Approach for Key Phrase Extraction 58 Trang web [28] http://vi.wikipedia.org/wiki/Wikipedia:Gi%E1%BB%9Bi_thi%E1%BB%87u [29] http://www.google.com.vn//giaidap/thread?tid=4a6585a2692334fa [30] http://dantri.com.vn/blog/tu-wiki-co-nghia-la-gi-443030.htm [31] https://voer.edu.vn/m/nhung-uu-diem-cua-mo-hinh-web-wiki/40d9cfad [32] http://tuanvietnam.vietnamnet.vn/wikipedia-hoat-dong-nhu-the-nao-phan-i [33] http://dumps.wikimedia.org/enwiki/latest/ [...]... luận) và có thể phân loại sử dụng để nhận diện chủ đề có trong một tài liệu văn bản nào đó Vì vậy đề tài Nhận biết chủ đề của tài liệu dựa trên Wikipedia giúp hỗ trợ ngƣời dùng nhận biết đƣợc chủ đề tài liệu mình tìm kiếm một cách nhanh chóng và chính xác 1.2 Mục tiêu, nội dung và phƣơng pháp nghiên cứu 1.2.1 Mục tiêu nghiên cứu Mục tiêu của việc nhận diện chủ đề của văn bản nhằm để tìm nhãn hoặc... tìm kiếm tài liệu một cách nhanh chóng và phân loại tiêu đề theo mong muốn Vì thế, một thách thức mới đƣợc đặt ra là làm thế nào để nhận biết chủ đề có trong một tài liệu văn bản một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động đƣợc chúng Nhận biết chủ đề của tài liệu dựa vào các động cơ tìm kiếm là một vấn đề hết sức quan trọng trong việc tra cứu tài liệu hằng... gian tìm kiếm tài liệu, giúp ngƣời dùng tìm kiếm tài liệu một cách nhanh chóng, chính xác thông tin mình cần Ngoài ra, việc nhận biết chủ đề tài liệu dựa trên Wikipedia còn giúp ngƣời dùng kiểm soát lƣợng thông tin mình tìm kiếm, tìm kiếm đƣợc những đặc trƣng của tài liệu một cách nhanh chóng và chính xác 2 Trong những năm gần đây, qui mô và tầm cỡ bách khoa toàn thƣ trực tuyến miễn phí Wikipedia đã... cứu có liên quan đến Wikipedia để nghiên cứu trong luận văn 2.1 Tình hình nghiên cứu trên thế giới Trên thế giới, có rất nhiều mô hình phân nhóm chủ đề tài liệu ra đời, một số thì đã đƣợc thƣơng mại hóa, số còn lại là xây dựng riêng cho mình một hệ thống phân nhóm chủ đề tài liệu hay chỉ đóng góp một phần nhỏ cho khoa học M Aery, N Ramamurthy, and Y A Aslandogan [11] Nhận diện chủ đề trong văn bản động... thuộc thời gian trong việc tách các chủ đề Kết quả thực nghiệm trên dữ liệu dòng chat và nhóm tin đã chứng minh rằng chuỗi thời gian tối thiểu đáp ứng các chủ đề có ý nghĩa vốn có trong dữ liệu văn bản động, và cũng cho thấy khả năng ứng dụng của phƣơng pháp để thu hồi từ một văn bản tạm thời thay đổi truy vấn dựa trên dòng 6 C.-Y Lin [15] nhận diện tự động chủ đề dựa trên tri thức Nhƣ là bƣớc đầu tiên... thừa) hoặc cải tiến một phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia - Thực nghiệm, đánh giá và viết báo cáo 1.2.2 Nội dung nghiên cứu Wikipedia bao gồm các bài viết, trang hình ảnh tách biệt, những ý kiến tranh luận về nội dung bài viết, về tác giả, các trang thiết kế mẫu…Mỗi bài viết đều có tiêu đề, xếp theo phân loại và có liên hệ... giữa tài liệu và bài viết, chẳng hạn số lƣợng từ khóa phổ biến, tỷ lệ phần trăm tên tiêu đề xuất hiện trong tài liệu  Bản thân bài viết, chẳng hạn số lƣợng bài viết trong Wikipedia có tiêu đề tƣơng tự Thứ hai, thu thập việc phân loại gắn liền với bài viết để hình thành nên sự phân loại chủ yếu dựa trên tính chất của bài viết, đồng thời cũng xem xét có bao nhiêu từ có mối liên hệ hỗ tƣơng trong tài liệu. .. nhất về vấn đề cốt lõi của văn bản phục vụ cho việc phân loại và xếp nhóm Tìm ra đƣợc những danh mục có trọng số phù hợp với bài báo một cách tự động và đạt độ chính xác cao Nhiệm vụ của luận văn: - Khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lƣu trữ trong Wikipedia - Khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia - Phát triển (trên cơ sở kế... qua, việc tìm kiếm, trích xuất và duy trì các thông tin là một nhiệm vụ khó khăn và tốn thời gian Để khắc phục vấn đề quá tải thông tin, một công cụ nhận biết chủ đề của tài liệu rất cần thiết cho ngƣời dùng theo dõi và xác định chính xác vị trí của chủ đề tài liệu mà mình cần tìm kiếm Wikipedia [28] chính thức bắt đầu vào ngày 15 tháng 01 năm 2001 nhờ hai ngƣời sáng lập Jimmy Wales và Larry Sanger... tiêu đề bài viết và phân loại các bài viết trong Wikipedia, để quyết định những yếu tố đặc trƣng nhất của tài liệu Trƣớc tiên, chúng ta xem xét tất cả các bài viết liên quan đến tài liệu bằng việc kết hợp tìm tiêu đề và những từ khóa trong tài liệu Sau đó những bài viết này đƣợc xem xét theo ba yếu tố nhƣ sau:  Từ khóa chia sẻ chung giữa tài liệu và tiêu đề, chẳng hạn tần suất hoặc số lƣợng phân nhóm ... phí Wikipedia đạt đến tầm mức nhƣ ontology (bản thể luận) phân loại sử dụng để nhận diện chủ đề có tài liệu văn Vì đề tài Nhận biết chủ đề tài liệu dựa Wikipedia giúp hỗ trợ ngƣời dùng nhận biết. .. Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận. .. trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu

Định dạng
Số trang	73
Dung lượng	1,63 MB