6. Bố cục của luận văn
3.5. TỔNG KẾT CHƢƠNG 3
Toàn bộ nôi dung chƣơng này của luận văn trình bày toàn bộ cách xây dựng và cài đặt của ứng dụng đọc tin dựa trên phƣơng pháp trích rút thông tin từ trang web và tổng hợp thông tin.
Hệ thống đọc tin nhanh đƣợc xây dựng trên nền thiết bị di động android, là công cụ hỗ trợ cho việc đọc tin nhanh, đƣa tin tức đến ngƣời đọc một cách nhanh chóng, hiệu quả. Tuy vậy do thời gian thƣc hiện còn nhiều hạn chế nên ứng dụng vẫn còn một sổ nhƣợc điểm nhƣ nhiều module của hệ thống chƣa đƣợc hoàn thiện, giao diện còn nhiều điểm chƣa hoàn thiện và chƣa tối ƣu cho ngƣời dùng.
Nếu có thời gian, luận văn sẽ tiến hành hoàn thiện một số chức năng còn lại của ứng dụng, chỉnh sửa giao diện và phát triển ứng dụng trên một số môi trƣờng thiết bị di động khác nhƣ iOS, BlackBerry.
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Luận văn đã tập trung nghiên cứu các phƣơng pháp trích rút thông tin từ trang web cũng nhƣ trình bày các khái niệm liên quan đến xử lý ngôn ngữ tự nhiên. Trên cở sở đó, luận văn đã tiến hành sử dụng phƣơng pháp trích rút thông tin từ trang web dựa trên phân tích mã HTML và cấu trúc cây DOM, thuật toán Body Text Extraction để xây dựng ứng dụng đọc tin nhanh.
Luận văn cũng đã xây dựng thành công hệ thống đọc tin nhanh trên điện thoại android, góp phần giúp mọi ngƣời có thể cập nhật tin tức một cách quả nhanh chóng. hiệu quả và mở ra một hƣớng mới trong việc khám phá và tiếp cận tri thức.
Tuy nhiên, trong quá trình thực hiện luận văn, do khuôn khổ về thời gian cũng nhƣ lƣợng kiến thức có hạn, luận văn còn vấp phải nhiều hạn chế, nhiều module của ứng dụng chỉ có thể đƣa ra ở mức độ ý tƣởng. Luận văn sẽ tiếp tục hoàn thiện và phát triển trong thời gian tới.
Từ những nhìn nhận ở trên, tôi cũng mạnh dạn đề xuất các hƣớng nghiên cứu và phát triển tiếp luận văn trong tƣơng lai nhƣ sau:
Nghiên cứu thử nghiệm trên nhiều công cụ khác nhau nhƣ ứng dụng trên desktop, web lọc tin, điện thoại iOS.
Nâng cấp giao diện tƣơng tác với ngƣời dùng để thuận tiện hơn cho ngƣời sử dụng.
Mở rộng trích rút thông tin trên nhiều lĩnh vực nghiên cứu khác nhƣ nghiên cứu khoa học, địa lý, du lịch.
Hoàn thành phát triển các module của ứng dụng nhƣ quên mật khẩu, đổi mật khẩu, tổng hợp thông tin theo chủ đề,…
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đinh Điền (2006), Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia. [2] Ngô Văn Khoa (2013), Nghiên Cứu Kỹ Thuật Phân Tích Và Trích Rút
Thuộc Tính Tài Liệu Phục Vụ Cho Các Bài Toán Tìm Kiếm, Luận văn thạc sỹ kỹ thuật, Đại Học Đà Nẵng.
[3] Nguyễn Tiến Thành (2009), Bài Toán Trích Rút Thông Tin Cho Dữ Liệu Bán Cấu Trúc, Luận văn thạc sỹ kỹ thuật, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội.
[4] Nguyễn Minh Thành (2011), Text Categorization - Phân Loại Văn Bản, Đồ Án Môn Học Xử Lý Ngôn Ngữ Tự Nhiên, Đại Học Quốc Gia TP. Hồ Chí Minh, Trƣờng Đại Học Khoa Học Tự Nhiên, Khoa CNTT. [5] Phạm Thị Lý (2014), Khai Phá Tập Mục Thường Xuyên Đóng Trên
Dòng Dữ Liệu, Luận văn thạc sỹ khoa học máy tính, Đại học Thái Nguyên, Trƣờng Đại Học CNTT & Truyền Thông.
[6] Dƣơng Văn Dũng (2013), Nghiên cứu lựa chọn mô hình và giải pháp đảm bảo an toàn thông tin trong điện toán đám mây tại Việt Nam, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.
[7] Nguyễn Huy Kiên (2013), Nghiên cứu về khai phá dữ liệu web và ứng dụng xây dựng website tích hợp thông tin, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.
[8] Trƣơng Tài Ba (2013), Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng, Luận văn thạc sỹ khoa học máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.
bản từ trang web và ứng dụng, Luận văn thạc sỹ hệ thống thông tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.
[10] Phan Thị Hà (2013), Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho dữ liệu từ nguồn internet cho xử lý Tiếng Việt, Luận án tiến sĩ Hệ Thống Thông Tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.
[11] Vũ Ngọc Anh (2006), Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & Smartphones), Luận văn thạc sỹ khoa học, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội
Tiếng nƣớc ngoài
[12] Rajkumar Buyya, Chee Shin Yeo, and Srikumar Venugopal (2008),
Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities, International Conference on High Performance Computing.
[13] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A (2002), Knowledge-Based Information Extraction System for Semi- structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning.
[14] Cunningham H.Et Al (2003), Developing language processincomponents with GATE- version 2.1
Trang Web
[15] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên [16] https://vi.wikipedia.org/wiki/Nhận_dạng_Ký_tự_Thông_minh [17] http://www.w3c.org
PHỤ LỤC
PHỤ LỤC 1 - BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH
STT Tên Chú Thích
1 Information Retrieval Tìm kiếm thông tin 2 Text Summarization Tóm lƣợc văn bản 3 Information Extraction Trích rút văn bản
4 Smart Phone Điện thoại di động thông minh 5 PlayBook Thiết bị đọc sách thông minh
6 Tablet Máy tính cầm tay thông minh
7 World Wide Web, Website, Web
Công nghệ web nói chung
8 3G Third generation technology. Là công
nghệ truyền thông thế hệ thứ ba, cho phép truyền cả dữ liệu thoại và dữ liệu ngoài thoại (tải dữ liệu, gửi email, tin nhắn nhanh, hình ảnh,...)
9 GPRS Dịch vụ vô tuyến gói tổng hợp (viết tắt của từ tiếng Anh là General Packet Radio Service). Là một dịch vụ dữ liệu di động dạng gói dành cho những ngƣời dùng Hệ thống thông tin di động toàn cầu (GSM) và điện thoại di động IS- 136. Nó cung cấp dữ liệu ở tốc độ từ 56 đến 114 kbps.
10 Internet Là một hệ thống thông tin toàn cầu có thể đƣợc truy nhập công cộng gồm
STT Tên Chú Thích
các mạng máy tính đƣợc liên kết với nhau. Hệ thống này truyền thông tin theo kiểu nối chuyển gói dữ liệu (packet switching) dựa trên một giao thức liên mạng đã đƣợc chuẩn hóa (giao thức IP). Hệ thống này bao gồm hàng ngàn mạng máy tính nhỏ hơn của các doanh nghiệp, của các viện nghiên cứu và các trƣờng đại học, của ngƣời dùng cá nhân và các chính phủ trên toàn cầu.
11 Android Android là hệ điều hành trên điện thoại di động và hiện nay là cả trên một số đầu phát HD, HD Player, Tivi. Phát triển bởi Google và dựa trên nền tảng Linux. Trƣớc đây, Android đƣợc phát triển bởi công ty liên hợp Android sau đó đƣợc Google mua lại vào năm 2005. 12 Banner Cửa sổ, biển quảng cáo thƣờng thấy
trên các ứng dụng.
13 Oracle Oracle là tên của một hãng phần mềm, một hệ quản trị cơ sở dữ liệu phổ biến trên thế giới. Hãng Oracle ra đời đầu những năm 70 của thế kỷ 20 tại nƣớc Mỹ. Khởi đầu với phần mềm quản trị CSDL cách đây hơn 50 năm.
STT Tên Chú Thích
14 Google Translation Là một công cụ dịch thuật trực tuyến đƣợc Google cung cấp. Dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác.
15 Machine Translate Dịch tự động
16 Character Recognition Nhận dạng chữ viết 17 Optical Character
Recognition - OCR
Nhận dạng chữ in
18 Intelligent Character Recognition - ICR
Nhận dạng chữ viết tay hay ký tự thông minh
19 Speech Recognition Nhận dạng tiếng nói 20 Text To Speech Tổng hợp tiếng nói
21 Query Truy vấn
22 Documents Các tài liệu
23 Indexing Lập chỉ mục
24 Interrogation Tìm kiếm
25 Text Summarization Tóm tắt văn bản 26 Text Classification Phân loại văn bản
27 Spam Mail Thƣ rác
28 Data Mining Khai phá dữ liệu, 29 Web Mining Khai phá dữ liệu web 30 Automatic Inserting
Accents
Tự động thêm dấu
31 Full Text Văn bản
STT Tên Chú Thích
33 Concept Description Mô tả khái niệm 34 Association Rules Luật kết hợp 35 Classification & Prediction Phân lớp và dự đoán 36 Clustering Phân cụm 37 Sequential/Temporal Patterns Khai phá chuỗi
38 TF-IDFs TF-IDFs (term frequency - inverse document frequency) là một phƣơng pháp phổ biến để đánh giá và xếp hạng một từ trong một tài liệu.
39 Web Content Mining Khai phá nội dung trang web 40 Web Page Content Nội dung trang web
41 Search Engine Result Kết quả máy tìm kiếm 42 Web Structure Mining Khai phá cấu trúc web 43 Web Usage/Log Mining Khai phá sử dụng web 44 General Access Pattern
Tracking
Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích các xu hƣớng cá nhân để chuyên biệt hóa website cho các lớp đối tƣợng ngƣời dùng
45 Customized Usage Tracking
Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích hồ sơ web để biết đƣợc mẫu và các xu hƣớng truy cập. 46 Weblog Entry Bản ghi đầu vào
STT Tên Chú Thích
49 Open Standard Các tiêu chuẩn mở
56 Tag Thẻ trong ngôn ngữ HTML, XML.
58 Resource Descripble Framword (RDF)
Là một nhóm các đặc tả của tổ chức World Wide Web
Consortium (W3C) có nguồn gốc đƣợc thiết kế nhƣ là mô hình dữ liệu siêu liên kết. RDF đƣợc sử dụng nhƣ là một phƣơng thức chung nhất cho các mô tả khái niệm hoặc mô hình hóa của thông tin đƣợc diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau.
59 Graphic Đồ họa
60 Hypertext Document Tài liệu siêu văn bản 61 Hypertext Link Liên kết siêu văn bản
62 Font Phông chữ
63 Concept Description Mô tả khái niệm 64 Association Rules Luật kết hợp 65 Classification & Prediction Phân lớp và dự đoán 66 Clustering Phân cụm 67 Sequential/Temporal Patterns Khai phá chuỗi 68 Vector Véc tơ
STT Tên Chú Thích
71 Web Usage/Log Mining Khai phá sử dụng Web
74 URI Liên kết URI
75 Service Dịch vụ
76 IEEE Tổ chức Xã hội máy tính IEEE
77 Google AppEngine Dịch vụ cung cấp những ứng dụng kinh doanh trực tuyến thông thƣờng, có thể truy nhập từ một trình duyệt web, còn các phần mềm và dữ liệu đều đƣợc lƣu trữ trên các máy chủ
78 Open Standard Các tiêu chuẩn mở
79 Open Source Software Phần mềm mã nguồn mở
80 KDD Hội nghị KDD
81 Entity Recognition Trích rút thực thể
82 GATE Website http://gate.ac.uk/ie/
83 Web 2.0 Công nghệ Web 2.0
84 Founder Ngƣời thành lập
85 Attribute Tầng thuộc tính
86 Record Tầng record
87 Attribute Thuộc tính
88 Visual Cue Dấu hiệu trực quan
89 Node Nút
90 Regular Expression (Regexp, Regex, Regxp)
Biểu thức chính quy
91 Deterministic Finite Automation - DFA
STT Tên Chú Thích
92 Backtracking Cơ chế quay lui 93 NIST (National Institute
of Standards and Technology)
Viện Tiêu chuẩn và Kỹ thuật quốc gia (Hoa Kỳ)
94
Word
Từ đơn vị mang nghĩa độc lập; đƣợc cấu tạo bởi (các) hình vị; có chức năng định danh. Ví dụ: I-am-reading-my– books.
95
Phrase
Ngữ, gồm hai hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau. Ví dụ nhƣ bức thƣ, mạng máy tính, computer system,…
96
Sentence
Câu gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có chức năng cơ bản là thông báo. Ví dụ: I am reading my books.
97
Text
Văn bản, hệ thống các câu đƣợc liên kết với nhau về mặt hình thức, ngữ pháp, ngữ nghĩa và ngữ dụng.
98 Grammar Văn phạm
99 Shallow parsing Phân tích sơ bộ 100
Fully parsing Phân tích đầy đủ, phân tích cả tầng ngữ nghĩa