XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

54 8 0
XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG HỢP VÀ TÓM TẮT TIN TỨC Sinh viên thực hiện: TRẦN CAO MINH BÁCH AT150204 VŨ THỊ ÁNH AT150504 TRẦN THỊ DUNG AT150310 Nhóm Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Hà Nội, 10-2021 LỜI NÓI ĐẦU Ngày nay, với phát triển mạnh mẽ khoa học công nghệ Công nghệ Thông tin ngành có vị dẫn đầu có vai trị lớn phát triển chung Các ứng dụng công nghệ thông tin áp dụng lĩnh vực nghiên cứu khoa học lĩnh vực đời sống Là phần Công nghệ Thơng tin, Cơng nghệ web có phát triển mạnh mẽ phổ biến nhanh lợi ích mà mang lại cho cộng đồng lớn Nhận thức nhu cầu tìm hiểu thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời nhu cầu tất yếu Vì thời gian ngày ít, thơng tin lại nhiều Nên đôi khi, bao trọn hết thông tin mà cần Khiến cho việc nắm bắt thông tin bị hạn chế Do đó, từ vấn đề chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với cơng nghệ phát triển nay, việc học máy vấn đề khơng cịn khó khăn, cho phép dạy cho cỗ máy học hỏi tự làm với yêu cầu đề Trong đề tài này, mơ hình học máy mà bọn em muốn sử dụng mơ hình xử lý liệu ngôn ngữ mức độ văn Sau thu thập phân loại, văn xử lý trả kết dạng tin vắn tắt, mang đầy đủ ý nghĩa nội dung tin gốc Trong đó, yếu tố mang tính ảnh hưởng mơ hình hướng đến nhằm xử lý liệu ngôn ngữ tự nhiên NLP Với mơ hình này, thư viện đề cập phần sau, chúng em triển khai phát triển thêm tính phù hợp hơn, tăng độ xác độ tin cậy sử dụng mơ hình Bên cạnh xử lý tin từ văn thành giọng nói, giúp cho người dùng tiện lợi nhiều việc cập nhật tin tức Phát triển xa áp dụng mơ hình vào để phát triển xử lý khối liệu văn lớn như: sách, tài liệu hay loại truyện, tiểu thuyết Phần cho người đọc có hình dung rõ tác phẩm mà muốn trải nghiệm Cũng giúp cho người dùng tiếp cận cách nhanh chóng khái qt vấn đề cần tìm hiểu Nội dung đề cương chia làm 03 phần sau: Chương 1: Tổng quan ngôn ngữ, công cụ hỗ trợ tổng quan đề tài Chương giới thiệu tảng ứng dụng phát triển đề tài chúng em Cách mà bọn em kết nối tạo hệ thống để đem đến tin vắn tắt gọn Bên cạnh định nghĩa nguồn tin Đem lại nhìn khát quát đề tài Chương 2: Áp dụng phương pháp học máy xử lý ngơn ngữ Chương trình bày giải pháp kỹ thuật sử dụng cho đề tài Với đề tài việc thu thập, phân tích rút gọn tin thành tin vắn Việc trọng tâm phải để ý áp dụng thuật toán để sử lý câu chữ, cho sau rút gọn, tin mang lại nội dung ý nghĩa Chương 3: Trình bày trình thực nghiệm đánh giá kết thu thực nghiệm So sánh kết với tập mẫu chọn ban đầu Từ đánh giá cải thiện thuật toán LỜI CAM ĐOAN Lời cam đoan viết Xem cách viết lời cam đoan Mục Error: Reference source not found MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU iii TÓM TẮT ĐỒ ÁN iv CHƯƠNG CƠ SỞ LÝ THUYẾT .1 1.1 Tổng quan ngôn ngữ công cụ hỗ trợ .1 1.2 1.3 1.1.1 Tổng quan lập trình Python Laravel .1 1.1.2 Các công cụ hỗ trợ Tổng quan nội dung thông tin sử dụng Tổng quan học máy 1.4 1.5 1.3.1 Giới thiệu học máy 1.3.2 Giới thiệu NLP 1.3.3 Giới thiệu NLTK Quy trình xử lý tóm tắt văn Tổng quan thuật toán sử dụng tóm tắt văn .4 1.5.1 Thuật toán K-Means Clustering .4 1.5.2 Thuật toán LSA (Latent Semantic Analysis) 1.5.3 Thuật toán Text Rank .7 CHƯƠNG THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG .9 2.1 Phân tích hệ thống 2.2 2.1.1 Biểu đồ phân rã chức .9 2.1.2 Biểu đồ Use Case tổng quát 10 2.1.3 Xác định actor chức 11 2.1.4 Biểu đồ Use case chi tiết 12 2.1.5 Đặc tả ca sử dụng 13 Thiết kế giao diện người dùng 23 2.2.1 Các chức 23 2.2.2 Phân quyền cho User .23 2.2.3 Nội dung trang 23 2.2.4 Cấu trúc trang web thực tế .24 2.3 Chuẩn bị liệu đầu vào .26 2.3.1 Thu thập liệu .26 2.3.2 Bóc tách & Lọc liệu dạng chuẩn 29 2.4Xử lý liệu chuẩn hoá .30 2.4.1 Tách câu văn 30 2.4.2 Tách từ câu 30 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực 30 2.4.4 Xây dựng đoạn văn tóm tắt .30 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 31 3.1 Nộp cứng 31 3.1.1 Nộp mềm 31 3.2 Bản quyền kết nghiên cứu 31 KẾT LUẬN 33 Kết luận chung 33 Hướng phát triển 33 Kiến nghị đề xuất .33 TÀI LIỆU THAM KHẢO 34 PHỤ LỤC 35 Phụ lục Mau trang bìa đồ án 35 Phụ lục Mau trang bìa phụ đồ án .37 Phụ lục Mau nhận xét đồ án 39 DANH MỤC KÝ HIỆU VÀ CHỮ VIÉT TẮT Xem Mục DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ khối hệ thống (Xem thêm Mục Error: Reference source not found) DANH MỤC BẢNG BIỂU Bảng 1.1 Kết thí nghiệm (Xem thêm Mục Error: Reference source not found) 2.2.1.3.2 Phân tích bóc tách liệu từ mã nguồn Với thành phần liệt kê trên, trang web có cấu trúc mã nguồn khác Vì vậy, tài liệu xin đề cập đến việc phân tích bóc tách liệu từ mã nguồn trang tuoitre.vn # # 2.2.1.3.3 Đối với Link viết Các viết thị trang chủ trang dạng tiêu đề kèm theo link viết thẻ có thuộc tính href chứa link đến viết Sử dụng thư viện bs4 request Python để xử lý theo bước: - Bước 1: Gửi request với tham số link trang chủ - Bước 2: Lấy nội dung mã nguồn request phương thức content thư viện request - Bước 3: Sử dụng thư viện bs4 để định dạng lại cho nội dung mã nguồn lấy từ request - Bước 4: Sử dụng phương thức findAll() thư viện bs4 để tìm kiếm tất thẻ chứa link trỏ đến viết - Bước 5: Sử dụng phương thức find() thư viện bs4 để tìm tất link trỏ đến viết nằm thẻ Mã nguồn: Nạp thư viện - from bs4 import BeautifulSoup - import requests Gửi request cho trang https://tuoitre.vn - # Định dạng lại mã nguồn lấy từ request - # news = requests.get('https://tuoitre.vn') soup = BeautifulSoup(news.content, "html.parser") Tìm tất thẻ chứa tiêu đề - titles = soup.findAll('h2', class ='title-name') - # Tìm tất thẻ lấy thuộc tính href chứa link trỏ đến viết - links = [link.find('a').attrs["href"] for link in titles] 2.2.1.3.4 Đối với thành phần khác Các viết có chung mẫu khơng thay đổi nhiều tuỳ viết, từ xác định xác thẻ chứa thành phần như: tiêu đề, thời gian đăng bài, mô tả viết, ảnh đại diện viết nội dung viết Vẫn sử dụng thư viện bs4 để tách thành phần khỏi mã nguồn đưa trạng thái văn tiền xử lý Mã nguồn: # Lấy tiêu đề viết # title = soup.find("h1", class ="article-title").text Lấy ngày đăng viết # date = soup.find("div", class ="date-time").text Lấy mô tả viết # abstract = soup.find("h2", class ="sapo").text Lấy nội dung viết # body = soup.find("div", id="main-detail-body").text Lấy ảnh đại diện viết - image = body.img['src'] 2.3.2 Bóc tách & Lọc liệu dạng chuẩn Văn đầu vào chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa, từ viết tắt, viết hoa, điều làm ảnh hưởng tới bước sau nên cần phải xử lý văn thu Chúng ta biến đổi văn chữ thường loại bỏ khoảng trắng thừa - 2.2.1.4Bóc tách liệu Văn tách từ thẻ html thư viện bs4 Từ đó, loại bỏ thành phần dư thừa tên thẻ thành phần khác file html 2.2.1.5 Lọc liệu dạng chuẩn Văn loại bỏ ký tự đặc biệt, ký tự xuống dòng ký tự khơng có nhiều ý nghĩa Khi văn khơng thay đổi nhiều có khả giữ nguyên nội dung ban đầu văn 2.4 Xử lý liệu chuẩn hoá 2.4.1 Tách câu văn 2.4.2 Tách từ câu 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực Để phục vụ cho phương pháp tóm tắt bước tiếp theo, cần chuyển câu văn (độ dài ngắn khác nhau) thành vector số thực có độ dài cố định, cho phải đảm bảo "độ khác nhau" ý nghĩa câu tương tự độ sai khác vector tạo 2.4.4 Xây dựng đoạn văn tóm tắt Với việc áp dụng thuật toán để xử lý văn bản, kết trả đoạn văn có nội dung tương tự nhau, chúng cần phải xác định độ giống so với văn gốc, từ định nội dung sử dụng thuật toán Việc cho phép cho việc xử lý nội dung báo trang khác lọc loại bỏ viết bị trùng lặp nội dung, tránh gây tiêu tốn tài nguyên hệ thống - CHƯƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Nộp cứng - Sinh viên (hoặc nhóm sinh viên với tối đa thành viên làm chung đề tài) nộp 01 đồ án TTCS văn phòng khoa CNTT trước ngày bảo vệ 03 ngày Mỗi đồ án phải có đặc điểm sau: • Được in mặt hai mặt nhằm tiết kiệm khơng gian lưu trữ • Được đóng bìa mềm có bìa bóng kính Lưu ý: khơng dùng bìa cứng • Quyển phải có chữ ký sinh viên sau Lời cam đoan giảng viên hướng dẫn 3.1.1 Nộp mềm - Sinh viên nộp mềm đồ án TTCS theo Giảng viên hướng dẫn Mỗi sinh viên nhóm sinh viên phải nộp đủ tồn nội dung làm đồ án TTCS (quyển file mềm dạng docx pdf; project bao gồm mã nguồn hướng dẫn cài đặt) Tất đặt thư mục đặt tên theo: manhom_tendetai_tengvhd_nam.rar Sinh viên nhóm sinh viên nộp cho GVHD dạng link tới file gửi lên cloud (google, microsoft, v.v.) copy cho GVHD 3.2 Bản quyền kết nghiên cứu - Đồ án TTCS sinh viên thường thuộc hai kiểu sau đây: • Thực nhiệm vụ để hồn thành q trình học tập Sinh viên tự tìm điều kiện làm việc để hồn thành đồ án Do đó, sinh viên có quyền khai thác sử dụng đồ án vào việc khác Đồng thời, Khoa Công nghệ thông tin có tồn quyền sử dụng kết đồ án cam kết chia sẻ kết đồ án cho tất quan tâm có u cầu • Thực đề tài, nhiệm vụ ý đồ chiến lược, chương trình khoa học lao động sản xuất giảng viên hướng dẫn, sở đào tạo • (trung tâm, viện nghiên cứu, công ty, v.v.), sở đào tạo cung cấp phương tiện điều kiện làm việc khác (máy móc, sách vở, điện thoại, truy cập internet, máy in, dụng cụ thiết bị thí nghiệm, kinh phí, v.v.) Trong trường hợp này, tồn quyền đồ án không thuộc sinh viên Sinh viên người tham gia thực nên không tuỳ tiện sử dụng nơi khác với mục đích khác Khi sinh viên thực đề tài theo hình thức này, vai trị giảng viên hướng dẫn định hướng, cung cấp tài liệu tham khảo (nếu có), tạo điều kiện sở vật chất (chỗ ngồi, máy tính, máy in, vật tư tiêu hao, phương tiện thông tin liên lạc, internet v.v.) để hồn thành cơng việc • KẾT LUẬN Kết luận chung • • Xem Mục Error: Reference source not found Hướng phát triển • • (Nếu có) Kiến nghị đề xuất • • (Nếu có) • TÀI LIỆU THAM KHẢO [1] T H Cormen, C E Leiserson, and R L Rivet, Introduction to Algorithm MIT Press, McGraw-Hill, 1990 [2] J W DuBois, S Schuetze-Coburn, S Cumming, and D Paolino, “Outline of discourse transcription,” in Talking Data: Transcription and Coding in Discourse Research, J A Edwards and M D Lampert, Ed Hillsdale, NJ: Lawrence Erlbaum Associates, 1993, pp 45-89 [3] J M Airey, J H Rohfl, F Brooks Jr., “Towards Image Realism with Interactive Update Rates in Complex Virtual Building Environments,” Comptuer Graphics, Vol 24, No 2, pp 41-50, 1990 [4] S Brandt, G Nutt, T Berk, M Humphrey, “Soft Real time Application Execution with Dynamic Quality of Service Assurance,” in Proceedings of the Sixth IEEE/IFIP International Workshop on Quality of Service, Hawaii, USA, May 1998, pp 154-163 [5] K Riley, “Language theory: Applications versus practice,” presented at the Conf of the Modern Language Association, Boston, MA, December 27-30, 1990 [6] J Jones (1991) Networks (2nd ed.) [Online] Available: http://www.atm.com • • PHỤ LỤC Phụ lục Mẫu trang bìa đồ án • (Xem trang sau) • KHOA CƠNG NGHỆ THƠNG TIN • • • ĐỒ ÁN MÔN HỌC • • • • HỌC VIỆN KỸ THUẬT MẬT MÃ THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH • Sinh viên thực hiện: LÊ LUNG LINH AT150302 • NGUYỄN VĂN NAM AT150033 • • Nhóm 68 Hà Nội, 10-2021 Phụ lục Mẫu trang bìa phụ đồ án • TRẦN THU HÀ AT150345 Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN • • • (Xem trang sau) • KHOA CƠNG NGHỆ THƠNG TIN • • • • • ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ • • HỌC VIỆN KỸ THUẬT MẬT MÃ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH • Sinh viên thực hiện: LÊ LUNG LINH AT150302 • NGUYỄN VĂN NAM AT150033 • TRẦN THU HÀ AT150345 • • Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN • • Hà Nội, 10-2021 Phụ lục Mẫu nhận xét đồ án • Nhóm 68 (Xem trang sau) • ĐÁNH GIÁ QUYỂN ĐỒ ÁN THỰC TẬP CƠ SỞ (Dùng cho giảng viên hướng dẫn) • T ên giảng viên đánh giá: • Họ tên Sinh viên: MSSV: • T ên đồ án: • Chọn mức điểm phù hợp cho sinh viên trình bày theo tiêu chí đây: • Rất (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5) • Có kết hợp lý thuyết thực hành (20) • Nêu rõ tính cấp thiết quan trọng đề tài, vấn đề • giả thuyết (bao gồm mục đích tính phù hợp) phạm vi ứng • • • • • dụng •đồ án Cập nhật kết nghiên cứu gần (trong nước/quốc tế) • Nêu rõ chi tiết phương pháp nghiên cứu/giải vấn đề • Có kết mơ phỏng/thưc nghiệm trình bày rõ ràng • • • • • • • • • • • • • • • • pháp • • • • • thực hiện•dựa quảđược nghiên cứu lý thuyết mộtlogic cáchvàcódễhệhiểu, thốngtất Kếtkếtquả trình bày cách • kết • • • • • • • • • • • • • • • • • • kết đạt • Có khả phân tích đánh giá kết (15) • Kế hoạch làm việc rõ ràng bao gồm mục tiêu phương được•phân tích đánh Trong phần giá kết thỏa luận,đáng tác giả rõ khác biệt (nếu có) • kết đạt mục tiêu ban đầu đề đồng thời cung cấp lập luận để đề xuất hướng giải thực tương lai • Kỹ viết đồ án (10) • Đồ án trình bày mẫu quy định với cấu trúc chương • logic đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, đánh số thứ tự giải thích hay đề cập đến đồ án, có lề, dấu cách sau dấu chấm, dấu phẩy v.v), có mở đầu chương kết luận chương, có liệt kê tài liệu tham khảo có trích dẫn quy định • khoa • Kỹ viết xuất sắc (cấu trúc câu chuẩn, văn phong học, lập luận logic có sở, từ vựng sử dụng phù hợp v.v.) • Thành tựu nghiên cứu khoa học (5) (chọn trường hợp) • • Có báo khoa học đăng chấp nhận đăng/đạt • giải • • • • • • • 0a • SVNC khoa học giải cấp Viện trở lên/các giải thưởng khoa học • (quốc từĐược giải 3báo trở cáo lên/ Có hội đăng ký phát minh sáng chế sinh • đồng cấp Viện hội nghị • tế/trong nước) viên • b nghiên cứu khoa học khơng đạt giải từ giải trở lên/Đạt giải • • khuyến khích kỳ thi quốc gia quốc tế khác chuyên ngành • TI contest • Khơng có thành tích nghiên cứu khoa học • • • Điểm tổng • Điểm tổng quy đổi thang 10 • • • Nhận xét khác (về thái độ tinh thần làm việc sinh viên) • Ngày: / / 20 • Người nhận xét (Ký ghi rõ họ tên) /50 ... chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với công nghệ phát triển nay, việc học máy vấn đề khơng cịn q khó khăn,... thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời... thuộc vào loại dự án mà mong muốn xây dựng, ví dụ muốn xây dựng dự án học máy mà sử dụng liệu thực để xây dựng hệ thống loT từ liệu cảm biến khác Dữ liệu thu thập từ nguồn liệu khác tập tin, sở

Ngày đăng: 11/02/2022, 09:41

Tài liệu cùng người dùng

Tài liệu liên quan