TỔNG KẾT CHƢƠNG 3

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 100 - 110)

6. Bố cục của luận văn

3.5. TỔNG KẾT CHƢƠNG 3

Toàn bộ nôi dung chƣơng này của luận văn trình bày toàn bộ cách xây dựng và cài đặt của ứng dụng đọc tin dựa trên phƣơng pháp trích rút thông tin từ trang web và tổng hợp thông tin.

Hệ thống đọc tin nhanh đƣợc xây dựng trên nền thiết bị di động android, là công cụ hỗ trợ cho việc đọc tin nhanh, đƣa tin tức đến ngƣời đọc một cách nhanh chóng, hiệu quả. Tuy vậy do thời gian thƣc hiện còn nhiều hạn chế nên ứng dụng vẫn còn một sổ nhƣợc điểm nhƣ nhiều module của hệ thống chƣa đƣợc hoàn thiện, giao diện còn nhiều điểm chƣa hoàn thiện và chƣa tối ƣu cho ngƣời dùng.

Nếu có thời gian, luận văn sẽ tiến hành hoàn thiện một số chức năng còn lại của ứng dụng, chỉnh sửa giao diện và phát triển ứng dụng trên một số môi trƣờng thiết bị di động khác nhƣ iOS, BlackBerry.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Luận văn đã tập trung nghiên cứu các phƣơng pháp trích rút thông tin từ trang web cũng nhƣ trình bày các khái niệm liên quan đến xử lý ngôn ngữ tự nhiên. Trên cở sở đó, luận văn đã tiến hành sử dụng phƣơng pháp trích rút thông tin từ trang web dựa trên phân tích mã HTML và cấu trúc cây DOM, thuật toán Body Text Extraction để xây dựng ứng dụng đọc tin nhanh.

Luận văn cũng đã xây dựng thành công hệ thống đọc tin nhanh trên điện thoại android, góp phần giúp mọi ngƣời có thể cập nhật tin tức một cách quả nhanh chóng. hiệu quả và mở ra một hƣớng mới trong việc khám phá và tiếp cận tri thức.

Tuy nhiên, trong quá trình thực hiện luận văn, do khuôn khổ về thời gian cũng nhƣ lƣợng kiến thức có hạn, luận văn còn vấp phải nhiều hạn chế, nhiều module của ứng dụng chỉ có thể đƣa ra ở mức độ ý tƣởng. Luận văn sẽ tiếp tục hoàn thiện và phát triển trong thời gian tới.

Từ những nhìn nhận ở trên, tôi cũng mạnh dạn đề xuất các hƣớng nghiên cứu và phát triển tiếp luận văn trong tƣơng lai nhƣ sau:

Nghiên cứu thử nghiệm trên nhiều công cụ khác nhau nhƣ ứng dụng trên desktop, web lọc tin, điện thoại iOS.

Nâng cấp giao diện tƣơng tác với ngƣời dùng để thuận tiện hơn cho ngƣời sử dụng.

Mở rộng trích rút thông tin trên nhiều lĩnh vực nghiên cứu khác nhƣ nghiên cứu khoa học, địa lý, du lịch.

Hoàn thành phát triển các module của ứng dụng nhƣ quên mật khẩu, đổi mật khẩu, tổng hợp thông tin theo chủ đề,…

DANH MỤC TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đinh Điền (2006), Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia. [2] Ngô Văn Khoa (2013), Nghiên Cứu Kỹ Thuật Phân Tích Và Trích Rút

Thuộc Tính Tài Liệu Phục Vụ Cho Các Bài Toán Tìm Kiếm, Luận văn thạc sỹ kỹ thuật, Đại Học Đà Nẵng.

[3] Nguyễn Tiến Thành (2009), Bài Toán Trích Rút Thông Tin Cho Dữ Liệu Bán Cấu Trúc, Luận văn thạc sỹ kỹ thuật, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội.

[4] Nguyễn Minh Thành (2011), Text Categorization - Phân Loại Văn Bản, Đồ Án Môn Học Xử Lý Ngôn Ngữ Tự Nhiên, Đại Học Quốc Gia TP. Hồ Chí Minh, Trƣờng Đại Học Khoa Học Tự Nhiên, Khoa CNTT. [5] Phạm Thị Lý (2014), Khai Phá Tập Mục Thường Xuyên Đóng Trên

Dòng Dữ Liệu, Luận văn thạc sỹ khoa học máy tính, Đại học Thái Nguyên, Trƣờng Đại Học CNTT & Truyền Thông.

[6] Dƣơng Văn Dũng (2013), Nghiên cứu lựa chọn mô hình và giải pháp đảm bảo an toàn thông tin trong điện toán đám mây tại Việt Nam, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[7] Nguyễn Huy Kiên (2013), Nghiên cứu về khai phá dữ liệu web và ứng dụng xây dựng website tích hợp thông tin, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[8] Trƣơng Tài Ba (2013), Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng, Luận văn thạc sỹ khoa học máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

bản từ trang web và ứng dụng, Luận văn thạc sỹ hệ thống thông tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[10] Phan Thị Hà (2013), Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho dữ liệu từ nguồn internet cho xử lý Tiếng Việt, Luận án tiến sĩ Hệ Thống Thông Tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[11] Vũ Ngọc Anh (2006), Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & Smartphones), Luận văn thạc sỹ khoa học, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội

Tiếng nƣớc ngoài

[12] Rajkumar Buyya, Chee Shin Yeo, and Srikumar Venugopal (2008),

Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities, International Conference on High Performance Computing.

[13] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A (2002), Knowledge-Based Information Extraction System for Semi- structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning.

[14] Cunningham H.Et Al (2003), Developing language processincomponents with GATE- version 2.1

Trang Web

[15] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên [16] https://vi.wikipedia.org/wiki/Nhận_dạng_Ký_tự_Thông_minh [17] http://www.w3c.org

PHỤ LỤC

PHỤ LỤC 1 - BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH

STT Tên Chú Thích

1 Information Retrieval Tìm kiếm thông tin 2 Text Summarization Tóm lƣợc văn bản 3 Information Extraction Trích rút văn bản

4 Smart Phone Điện thoại di động thông minh 5 PlayBook Thiết bị đọc sách thông minh

6 Tablet Máy tính cầm tay thông minh

7 World Wide Web, Website, Web

Công nghệ web nói chung

8 3G Third generation technology. Là công

nghệ truyền thông thế hệ thứ ba, cho phép truyền cả dữ liệu thoại và dữ liệu ngoài thoại (tải dữ liệu, gửi email, tin nhắn nhanh, hình ảnh,...)

9 GPRS Dịch vụ vô tuyến gói tổng hợp (viết tắt của từ tiếng Anh là General Packet Radio Service). Là một dịch vụ dữ liệu di động dạng gói dành cho những ngƣời dùng Hệ thống thông tin di động toàn cầu (GSM) và điện thoại di động IS- 136. Nó cung cấp dữ liệu ở tốc độ từ 56 đến 114 kbps.

10 Internet Là một hệ thống thông tin toàn cầu có thể đƣợc truy nhập công cộng gồm

STT Tên Chú Thích

các mạng máy tính đƣợc liên kết với nhau. Hệ thống này truyền thông tin theo kiểu nối chuyển gói dữ liệu (packet switching) dựa trên một giao thức liên mạng đã đƣợc chuẩn hóa (giao thức IP). Hệ thống này bao gồm hàng ngàn mạng máy tính nhỏ hơn của các doanh nghiệp, của các viện nghiên cứu và các trƣờng đại học, của ngƣời dùng cá nhân và các chính phủ trên toàn cầu.

11 Android Android là hệ điều hành trên điện thoại di động và hiện nay là cả trên một số đầu phát HD, HD Player, Tivi. Phát triển bởi Google và dựa trên nền tảng Linux. Trƣớc đây, Android đƣợc phát triển bởi công ty liên hợp Android sau đó đƣợc Google mua lại vào năm 2005. 12 Banner Cửa sổ, biển quảng cáo thƣờng thấy

trên các ứng dụng.

13 Oracle Oracle là tên của một hãng phần mềm, một hệ quản trị cơ sở dữ liệu phổ biến trên thế giới. Hãng Oracle ra đời đầu những năm 70 của thế kỷ 20 tại nƣớc Mỹ. Khởi đầu với phần mềm quản trị CSDL cách đây hơn 50 năm.

STT Tên Chú Thích

14 Google Translation Là một công cụ dịch thuật trực tuyến đƣợc Google cung cấp. Dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác.

15 Machine Translate Dịch tự động

16 Character Recognition Nhận dạng chữ viết 17 Optical Character

Recognition - OCR

Nhận dạng chữ in

18 Intelligent Character Recognition - ICR

Nhận dạng chữ viết tay hay ký tự thông minh

19 Speech Recognition Nhận dạng tiếng nói 20 Text To Speech Tổng hợp tiếng nói

21 Query Truy vấn

22 Documents Các tài liệu

23 Indexing Lập chỉ mục

24 Interrogation Tìm kiếm

25 Text Summarization Tóm tắt văn bản 26 Text Classification Phân loại văn bản

27 Spam Mail Thƣ rác

28 Data Mining Khai phá dữ liệu, 29 Web Mining Khai phá dữ liệu web 30 Automatic Inserting

Accents

Tự động thêm dấu

31 Full Text Văn bản

STT Tên Chú Thích

33 Concept Description Mô tả khái niệm 34 Association Rules Luật kết hợp 35 Classification & Prediction Phân lớp và dự đoán 36 Clustering Phân cụm 37 Sequential/Temporal Patterns Khai phá chuỗi

38 TF-IDFs TF-IDFs (term frequency - inverse document frequency) là một phƣơng pháp phổ biến để đánh giá và xếp hạng một từ trong một tài liệu.

39 Web Content Mining Khai phá nội dung trang web 40 Web Page Content Nội dung trang web

41 Search Engine Result Kết quả máy tìm kiếm 42 Web Structure Mining Khai phá cấu trúc web 43 Web Usage/Log Mining Khai phá sử dụng web 44 General Access Pattern

Tracking

Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích các xu hƣớng cá nhân để chuyên biệt hóa website cho các lớp đối tƣợng ngƣời dùng

45 Customized Usage Tracking

Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích hồ sơ web để biết đƣợc mẫu và các xu hƣớng truy cập. 46 Weblog Entry Bản ghi đầu vào

STT Tên Chú Thích

49 Open Standard Các tiêu chuẩn mở

56 Tag Thẻ trong ngôn ngữ HTML, XML.

58 Resource Descripble Framword (RDF)

Là một nhóm các đặc tả của tổ chức World Wide Web

Consortium (W3C) có nguồn gốc đƣợc thiết kế nhƣ là mô hình dữ liệu siêu liên kết. RDF đƣợc sử dụng nhƣ là một phƣơng thức chung nhất cho các mô tả khái niệm hoặc mô hình hóa của thông tin đƣợc diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau.

59 Graphic Đồ họa

60 Hypertext Document Tài liệu siêu văn bản 61 Hypertext Link Liên kết siêu văn bản

62 Font Phông chữ

63 Concept Description Mô tả khái niệm 64 Association Rules Luật kết hợp 65 Classification & Prediction Phân lớp và dự đoán 66 Clustering Phân cụm 67 Sequential/Temporal Patterns Khai phá chuỗi 68 Vector Véc tơ

STT Tên Chú Thích

71 Web Usage/Log Mining Khai phá sử dụng Web

74 URI Liên kết URI

75 Service Dịch vụ

76 IEEE Tổ chức Xã hội máy tính IEEE

77 Google AppEngine Dịch vụ cung cấp những ứng dụng kinh doanh trực tuyến thông thƣờng, có thể truy nhập từ một trình duyệt web, còn các phần mềm và dữ liệu đều đƣợc lƣu trữ trên các máy chủ

78 Open Standard Các tiêu chuẩn mở

79 Open Source Software Phần mềm mã nguồn mở

80 KDD Hội nghị KDD

81 Entity Recognition Trích rút thực thể

82 GATE Website http://gate.ac.uk/ie/

83 Web 2.0 Công nghệ Web 2.0

84 Founder Ngƣời thành lập

85 Attribute Tầng thuộc tính

86 Record Tầng record

87 Attribute Thuộc tính

88 Visual Cue Dấu hiệu trực quan

89 Node Nút

90 Regular Expression (Regexp, Regex, Regxp)

Biểu thức chính quy

91 Deterministic Finite Automation - DFA

STT Tên Chú Thích

92 Backtracking Cơ chế quay lui 93 NIST (National Institute

of Standards and Technology)

Viện Tiêu chuẩn và Kỹ thuật quốc gia (Hoa Kỳ)

94

Word

Từ đơn vị mang nghĩa độc lập; đƣợc cấu tạo bởi (các) hình vị; có chức năng định danh. Ví dụ: I-am-reading-my– books.

95

Phrase

Ngữ, gồm hai hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau. Ví dụ nhƣ bức thƣ, mạng máy tính, computer system,…

96

Sentence

Câu gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có chức năng cơ bản là thông báo. Ví dụ: I am reading my books.

97

Text

Văn bản, hệ thống các câu đƣợc liên kết với nhau về mặt hình thức, ngữ pháp, ngữ nghĩa và ngữ dụng.

98 Grammar Văn phạm

99 Shallow parsing Phân tích sơ bộ 100

Fully parsing Phân tích đầy đủ, phân tích cả tầng ngữ nghĩa

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 100 - 110)

Tải bản đầy đủ (PDF)

(110 trang)