CÀI ĐẶT VÀ THỬ NGHIỆM ỨNG DỤNG

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 88)

6. Bố cục của luận văn

3.4.CÀI ĐẶT VÀ THỬ NGHIỆM ỨNG DỤNG

3.4.1. Giao diện trang đăng nhập

Giao diện chính của trang đăng nhập gồm hai trƣờng Tài Khoản và Mật Khẩu. Nếu ngƣời dùng đã có tài khoản của hệ thống, chỉ cần gõ vào đúng thông tin về Tài Khoản và Mật Khẩu, sau đó chọn nút Đăng Nhập để tiến hành đăng nhập vào hệ thống.

Nếu ngƣời dùng chƣa có tài khoản, có thể chọn nhãn Đăng Ký để tiến hành đăng ký tài khoản.

Hình 3.19. Giao diện trang đăng nhập

3.4.2. Giao diện của trang đăng ký tài khoán

Để đăng ký tài khoản, ngƣời dùng cần gõ vào Tên Tài Khoản, Mật Khẩu, Xác Nhận Lại Mật Khẩu, Email sau đó chọn nút Tạo Tài Khoản để tiến hành tạo tài khoản. Hệ thống sẽ tiến hành gửi email xác nhận đến email ngƣời dùng đã đăng ký và ngƣời dùng có thể tiến hành dùng Tên Tài Khoản và Mật Khẩu để đăng nhập vào hệ thống.

Hình 3.20. Giao diện trang đăng ký tài khoản

Ngƣời dùng có thể quay lại trang đăng nhập bằng cách bấm vào nhãn Về Trang Đăng Nhập.

3.4.3. Giao diện của trang danh mục chức năng

Sau khi đăng nhập thành công, hệ thống sẽ hiển thị trang danh mục chức năng cho ngƣời dùng. Trang này hiển thị các chức năng cơ bản của hệ thống bao gồm Thông Tin Tài Khoản, Trang Chủ, Tin Thể Thao, Đọc Tin RSS, Quản Lý Trang Đã Lƣu.

Khi bấm vào các chức năng, hệ thống sẽ hiển thị các trang tƣơng ứng trên ứng dụng.

Hình 3.21. Giao diện trang danh mục chức năng

Ngƣời dùng có thể bấm vào nút Thoát để đăng xuất khỏi tài khoản, hoặc nút Thông Tin để xem thông tin về ứng dụng nhƣ phiên bản, ngày xuất bản, ngƣời viết ứng dụng.

3.4.4. Giao diện của trang thông tin ngƣời dùng

Khi bấm vào mục Thông Tin Tài Khoản trên trang danh mục chức năng, giao diện trang thông tin ngƣời dùng sẽ hiển thị, là thông tin về tài khoản mà ngƣời dùng đã đăng nhập. Trang này dùng để hiển thị thông tin của ngƣời dùng nhƣ tên tài khoản, địa chỉ email.

Hình 3.22. Giao diện trang thông tin người dùng

3.4.5. Giao diện của trang chủ

Trang chủ của ứng dụng lấy tin từ các trang đã lƣu của ngƣời dùng sau đó tổng hợp và đƣa ra tin tức lên các trang tin của ứng dụng.

Để đọc tin từ trang chủ, ngƣời dùng bấm trực tiếp vào các đƣờng link của trang chủ, các trang tin sẽ đƣợc xử lý và hiển thị sau đó hiển thị lên trang chủ chi tiết.

Hình 3.24. Giao diện trang chủ chi tiết

3.4.6. Giao diện của trang đọc tin RSS

Để đọc tin RSS, ngƣời dùng chỉ việc gõ trực tiếp link RSS vào cửa sổ của ứng dụng và bấm phím OK của cửa sổ.

Ứng dụng sẽ tiến hành phân tích cấu trúc RSS của trang web và hiển thị lên trang tin của ứng dụng. Ngƣời dùng có thể bấm phím Hủy để tắt cửa sổ và có thể mở lại cửa sổ để đọc tin RSS khác.

Hình 3.25. Giao diện trang đọc tin RSS

3.4.7. Giao diện chức năng quản lý trang

Ngƣời dùng có thể quản lý trang tin tức của mình thông qua chức năng lƣu trang. Ngƣời dùng có thể tạo mới, sửa, xóa các trang tin trong kênh tin tức của mình và xem thông tin về các trang đã lƣu.

Để tạo mới, ngƣời dùng bấm vào Menu, chọn mục Tạo Mới, nhập vào tiêu đề, đƣờng link RSS và bấm nút Lƣu. Trang sẽ đƣợc lƣu vào CSDL của hệ thống.

Để xóa trang ngƣời dùng chỉ việc bấm và giữ các mục tại trang tin, chọn xóa. Trang tin sẽ đƣợc xóa khỏi CSDL của hệ thống. Tƣơng tự nhƣ vậy, để sửa tin, ngƣời dùng chỉ cần chọn sửa, nhập vào nội dung mới và bấm nút Lƣu. Thông tin cần sửa sẽ đƣợc cập nhật trong CSDL của hệ thống.

3.4.8. Giao diện chức năng đọc tin tức tổng hợp

a. Chức năng xem tin tức về giá vàng

Ứng dụng cho phép trích rút thông tin từ trang web và hiển thị mẩu tin tức về giá vàn. Ví dụ giá vàng SJC mua vào và bán ra hôm qua và hôm nay ở TP. HCM, giá vàng nữ trang 10K, vàng nữ trang 99%, vàng nhẫn SJC 99%,... (adsbygoogle = window.adsbygoogle || []).push({});

b. Chức năng xem tin dự báo thời tiết

Ứng dụng cho phép hiển thị mẩu tin dự báo thời tiết trong ngày của một số tỉnh trong cả nƣớc nhƣ Đà Nẵng, Hải Phòng, Nha Trang, Pleiku, Sơn La, TP. HCM, Hà Nội, Vinh,...

Hình 3.28. Giao diện chức năng xem tin dự báo thời tiết

c. Chức năng xem thông tin tỉ giá ngoại tệ

Ứng dụng cho phép hiển thị mẩu tin thông tin về tỷ giá ngoại tệ. Ngƣời dùng có thể xem thông tin về tỉ giá ngoại tệ nhƣ giá mua vào, bán ra của USD, EUR, GBR,...

Các mẩu tin tức này đƣợc trích rút tự động từ trang web, khi thông tin về giá ngoại tệ thay đổi trên trang web thì mẩu tin lấy về cũng tự động cập nhật theo.

Hình 3.29. Giao diện chức năng xem thông tin tỉ giá ngoại tệ

d. Chức năng xem kết quả xổ số

Ứng dụng cho phép hiển thị thông tin kết quả sổ số từ trang web.

e. Chức năng đọc tin tức thể thao

Ứng dụng cho phép hiện thị tin tức bóng đá trên các trang tin. Ngƣời dùng có thể chọn các mục Bảng Xếp Hạng, Lịch Thi Đấu, Kết Quả để xem các nội dung tƣơng ứng.

Giao diện của trang tin Bảng Xếp hạng cho phép xem tin về Tên Đội, Thứ Hạng, Điểm.

Hình 3.31. Giao diện trang đọc tin tức bảng xếp hạng bóng đá

Giao diện của trang Lịch Thi Đấu cho phép xem các thông tin về lịch thi đấu nhƣ ngày giờ, tên đội thi đấu.

Hình 3.32. Trang đọc tin tức lịch thi đấu bóng đá

Giao diện của trang Kết Quả cho phép xem kết quả trận đấu đã diễn ra.

3.5. TỔNG KẾT CHƢƠNG 3

Toàn bộ nôi dung chƣơng này của luận văn trình bày toàn bộ cách xây dựng và cài đặt của ứng dụng đọc tin dựa trên phƣơng pháp trích rút thông tin từ trang web và tổng hợp thông tin.

Hệ thống đọc tin nhanh đƣợc xây dựng trên nền thiết bị di động android, là công cụ hỗ trợ cho việc đọc tin nhanh, đƣa tin tức đến ngƣời đọc một cách nhanh chóng, hiệu quả. Tuy vậy do thời gian thƣc hiện còn nhiều hạn chế nên ứng dụng vẫn còn một sổ nhƣợc điểm nhƣ nhiều module của hệ thống chƣa đƣợc hoàn thiện, giao diện còn nhiều điểm chƣa hoàn thiện và chƣa tối ƣu cho ngƣời dùng.

Nếu có thời gian, luận văn sẽ tiến hành hoàn thiện một số chức năng còn lại của ứng dụng, chỉnh sửa giao diện và phát triển ứng dụng trên một số môi trƣờng thiết bị di động khác nhƣ iOS, BlackBerry.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Luận văn đã tập trung nghiên cứu các phƣơng pháp trích rút thông tin từ trang web cũng nhƣ trình bày các khái niệm liên quan đến xử lý ngôn ngữ tự nhiên. Trên cở sở đó, luận văn đã tiến hành sử dụng phƣơng pháp trích rút thông tin từ trang web dựa trên phân tích mã HTML và cấu trúc cây DOM, thuật toán Body Text Extraction để xây dựng ứng dụng đọc tin nhanh.

Luận văn cũng đã xây dựng thành công hệ thống đọc tin nhanh trên điện thoại android, góp phần giúp mọi ngƣời có thể cập nhật tin tức một cách quả nhanh chóng. hiệu quả và mở ra một hƣớng mới trong việc khám phá và tiếp cận tri thức.

Tuy nhiên, trong quá trình thực hiện luận văn, do khuôn khổ về thời gian cũng nhƣ lƣợng kiến thức có hạn, luận văn còn vấp phải nhiều hạn chế, nhiều module của ứng dụng chỉ có thể đƣa ra ở mức độ ý tƣởng. Luận văn sẽ tiếp tục hoàn thiện và phát triển trong thời gian tới.

Từ những nhìn nhận ở trên, tôi cũng mạnh dạn đề xuất các hƣớng nghiên cứu và phát triển tiếp luận văn trong tƣơng lai nhƣ sau:

Nghiên cứu thử nghiệm trên nhiều công cụ khác nhau nhƣ ứng dụng trên desktop, web lọc tin, điện thoại iOS.

Nâng cấp giao diện tƣơng tác với ngƣời dùng để thuận tiện hơn cho ngƣời sử dụng.

Mở rộng trích rút thông tin trên nhiều lĩnh vực nghiên cứu khác nhƣ nghiên cứu khoa học, địa lý, du lịch.

Hoàn thành phát triển các module của ứng dụng nhƣ quên mật khẩu, đổi mật khẩu, tổng hợp thông tin theo chủ đề,…

DANH MỤC TÀI LIỆU THAM KHẢO (adsbygoogle = window.adsbygoogle || []).push({});

Tiếng Việt

[1] Đinh Điền (2006), Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia. [2] Ngô Văn Khoa (2013), Nghiên Cứu Kỹ Thuật Phân Tích Và Trích Rút

Thuộc Tính Tài Liệu Phục Vụ Cho Các Bài Toán Tìm Kiếm, Luận văn thạc sỹ kỹ thuật, Đại Học Đà Nẵng.

[3] Nguyễn Tiến Thành (2009), Bài Toán Trích Rút Thông Tin Cho Dữ Liệu Bán Cấu Trúc, Luận văn thạc sỹ kỹ thuật, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội.

[4] Nguyễn Minh Thành (2011), Text Categorization - Phân Loại Văn Bản, Đồ Án Môn Học Xử Lý Ngôn Ngữ Tự Nhiên, Đại Học Quốc Gia TP. Hồ Chí Minh, Trƣờng Đại Học Khoa Học Tự Nhiên, Khoa CNTT. [5] Phạm Thị Lý (2014), Khai Phá Tập Mục Thường Xuyên Đóng Trên

Dòng Dữ Liệu, Luận văn thạc sỹ khoa học máy tính, Đại học Thái Nguyên, Trƣờng Đại Học CNTT & Truyền Thông.

[6] Dƣơng Văn Dũng (2013), Nghiên cứu lựa chọn mô hình và giải pháp đảm bảo an toàn thông tin trong điện toán đám mây tại Việt Nam, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[7] Nguyễn Huy Kiên (2013), Nghiên cứu về khai phá dữ liệu web và ứng dụng xây dựng website tích hợp thông tin, Luận văn thạc sỹ truyền dữ liệu và mạng máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[8] Trƣơng Tài Ba (2013), Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng, Luận văn thạc sỹ khoa học máy tính, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

bản từ trang web và ứng dụng, Luận văn thạc sỹ hệ thống thông tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[10] Phan Thị Hà (2013), Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho dữ liệu từ nguồn internet cho xử lý Tiếng Việt, Luận án tiến sĩ Hệ Thống Thông Tin, Học viện Công Nghệ Bƣu Chính Viễn Thông, Hà Nội.

[11] Vũ Ngọc Anh (2006), Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & Smartphones), Luận văn thạc sỹ khoa học, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội

Tiếng nƣớc ngoài

[12] Rajkumar Buyya, Chee Shin Yeo, and Srikumar Venugopal (2008),

Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities, International Conference on High Performance Computing.

[13] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A (2002), Knowledge-Based Information Extraction System for Semi- structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning.

[14] Cunningham H.Et Al (2003), Developing language processincomponents with GATE- version 2.1

Trang Web

[15] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên [16] https://vi.wikipedia.org/wiki/Nhận_dạng_Ký_tự_Thông_minh [17] http://www.w3c.org

PHỤ LỤC

PHỤ LỤC 1 - BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH

STT Tên Chú Thích

1 Information Retrieval Tìm kiếm thông tin 2 Text Summarization Tóm lƣợc văn bản 3 Information Extraction Trích rút văn bản

4 Smart Phone Điện thoại di động thông minh 5 PlayBook Thiết bị đọc sách thông minh

6 Tablet Máy tính cầm tay thông minh

7 World Wide Web, Website, Web

Công nghệ web nói chung

8 3G Third generation technology. Là công

nghệ truyền thông thế hệ thứ ba, cho phép truyền cả dữ liệu thoại và dữ liệu ngoài thoại (tải dữ liệu, gửi email, tin nhắn nhanh, hình ảnh,...)

9 GPRS Dịch vụ vô tuyến gói tổng hợp (viết tắt của từ tiếng Anh là General Packet Radio Service). Là một dịch vụ dữ liệu di động dạng gói dành cho những ngƣời dùng Hệ thống thông tin di động toàn cầu (GSM) và điện thoại di động IS- 136. Nó cung cấp dữ liệu ở tốc độ từ 56 đến 114 kbps. (adsbygoogle = window.adsbygoogle || []).push({});

10 Internet Là một hệ thống thông tin toàn cầu có thể đƣợc truy nhập công cộng gồm

STT Tên Chú Thích

các mạng máy tính đƣợc liên kết với nhau. Hệ thống này truyền thông tin theo kiểu nối chuyển gói dữ liệu (packet switching) dựa trên một giao thức liên mạng đã đƣợc chuẩn hóa (giao thức IP). Hệ thống này bao gồm hàng ngàn mạng máy tính nhỏ hơn của các doanh nghiệp, của các viện nghiên cứu và các trƣờng đại học, của ngƣời dùng cá nhân và các chính phủ trên toàn cầu.

11 Android Android là hệ điều hành trên điện thoại di động và hiện nay là cả trên một số đầu phát HD, HD Player, Tivi. Phát triển bởi Google và dựa trên nền tảng Linux. Trƣớc đây, Android đƣợc phát triển bởi công ty liên hợp Android sau đó đƣợc Google mua lại vào năm 2005. 12 Banner Cửa sổ, biển quảng cáo thƣờng thấy

trên các ứng dụng.

13 Oracle Oracle là tên của một hãng phần mềm, một hệ quản trị cơ sở dữ liệu phổ biến trên thế giới. Hãng Oracle ra đời đầu những năm 70 của thế kỷ 20 tại nƣớc Mỹ. Khởi đầu với phần mềm quản trị CSDL cách đây hơn 50 năm.

STT Tên Chú Thích

14 Google Translation Là một công cụ dịch thuật trực tuyến đƣợc Google cung cấp. Dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác.

15 Machine Translate Dịch tự động

16 Character Recognition Nhận dạng chữ viết 17 Optical Character

Recognition - OCR

Nhận dạng chữ in

18 Intelligent Character Recognition - ICR

Nhận dạng chữ viết tay hay ký tự thông minh

19 Speech Recognition Nhận dạng tiếng nói 20 Text To Speech Tổng hợp tiếng nói

21 Query Truy vấn

22 Documents Các tài liệu

23 Indexing Lập chỉ mục

24 Interrogation Tìm kiếm

25 Text Summarization Tóm tắt văn bản 26 Text Classification Phân loại văn bản

27 Spam Mail Thƣ rác

28 Data Mining Khai phá dữ liệu, 29 Web Mining Khai phá dữ liệu web 30 Automatic Inserting

Accents

Tự động thêm dấu

31 Full Text Văn bản

STT Tên Chú Thích

33 Concept Description Mô tả khái niệm 34 Association Rules Luật kết hợp 35 Classification & Prediction Phân lớp và dự đoán 36 Clustering Phân cụm 37 Sequential/Temporal Patterns Khai phá chuỗi

38 TF-IDFs TF-IDFs (term frequency - inverse document frequency) là một phƣơng pháp phổ biến để đánh giá và xếp hạng một từ trong một tài liệu.

39 Web Content Mining Khai phá nội dung trang web 40 Web Page Content Nội dung trang web

41 Search Engine Result Kết quả máy tìm kiếm 42 Web Structure Mining Khai phá cấu trúc web 43 Web Usage/Log Mining Khai phá sử dụng web 44 General Access Pattern (adsbygoogle = window.adsbygoogle || []).push({});

Tracking

Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích các xu hƣớng cá nhân để chuyên biệt hóa website cho các lớp đối tƣợng ngƣời dùng

45 Customized Usage Tracking

Một trong hai xu hƣớng của khai phá sử dụng web. Phân tích hồ sơ web để biết đƣợc mẫu và các xu hƣớng truy cập. 46 Weblog Entry Bản ghi đầu vào

STT Tên Chú Thích

49 Open Standard Các tiêu chuẩn mở

56 Tag Thẻ trong ngôn ngữ HTML, XML.

58 Resource Descripble Framword (RDF)

Là một nhóm các đặc tả của tổ chức World Wide Web

Consortium (W3C) có nguồn gốc đƣợc thiết kế nhƣ là mô hình dữ liệu siêu liên kết. RDF đƣợc sử dụng nhƣ là một phƣơng thức chung nhất cho các mô tả khái niệm hoặc mô hình hóa của thông tin đƣợc diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau.

59 Graphic Đồ họa

60 Hypertext Document Tài liệu siêu văn bản 61 Hypertext Link Liên kết siêu văn bản

62 Font Phông chữ

63 Concept Description Mô tả khái niệm 64 Association Rules Luật kết hợp 65 Classification & Prediction Phân lớp và dự đoán 66 Clustering Phân cụm 67 Sequential/Temporal Patterns Khai phá chuỗi 68 Vector Véc tơ

STT Tên Chú Thích

71 Web Usage/Log Mining Khai phá sử dụng Web

74 URI Liên kết URI

75 Service Dịch vụ

76 IEEE Tổ chức Xã hội máy tính IEEE

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 88)