XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

63 9 0
XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG HỢP VÀ TÓM TẮT TIN TỨC Sinh viên thực hiện: TRẦN CAO MINH BÁCH AT150204 VŨ THỊ ÁNH AT150504 TRẦN THỊ DUNG AT150310 Nhóm Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Hà Nội, 10-2021 LỜI NÓI ĐẦU Ngày nay, với phát triển mạnh mẽ khoa học công nghệ Công nghệ Thông tin ngành có vị dẫn đầu có vai trị lớn phát triển chung Các ứng dụng công nghệ thông tin áp dụng lĩnh vực nghiên cứu khoa học lĩnh vực đời sống Là phần Công nghệ Thơng tin, Cơng nghệ web có phát triển mạnh mẽ phổ biến nhanh lợi ích mà mang lại cho cộng đồng lớn Nhận thức nhu cầu tìm hiểu thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời nhu cầu tất yếu Vì thời gian ngày ít, thơng tin lại nhiều Nên đôi khi, bao trọn hết thông tin mà cần Khiến cho việc nắm bắt thông tin bị hạn chế Do đó, từ vấn đề chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với cơng nghệ phát triển nay, việc học máy vấn đề khơng cịn khó khăn, cho phép dạy cho cỗ máy học hỏi tự làm với yêu cầu đề Trong đề tài này, mơ hình học máy mà bọn em muốn sử dụng mơ hình xử lý liệu ngôn ngữ mức độ văn Sau thu thập phân loại, văn xử lý trả kết dạng tin vắn tắt, mang đầy đủ ý nghĩa nội dung tin gốc Trong đó, yếu tố mang tính ảnh hưởng mơ hình hướng đến nhằm xử lý liệu ngôn ngữ tự nhiên NLP Với mơ hình này, thư viện đề cập phần sau, chúng em triển khai phát triển thêm tính phù hợp hơn, tăng độ xác độ tin cậy sử dụng mơ hình Bên cạnh xử lý tin từ văn thành giọng nói, giúp cho người dùng tiện lợi nhiều việc cập nhật tin tức Phát triển xa áp dụng mơ hình vào để phát triển xử lý khối liệu văn lớn như: sách, tài liệu hay loại truyện, tiểu thuyết Phần cho người đọc có hình dung rõ tác phẩm mà muốn trải nghiệm Cũng giúp cho người dùng tiếp cận cách nhanh chóng khái qt vấn đề cần tìm hiểu Nội dung cua đề cương đuơc chia lam 03 phân nhu sau: Chương 1: Tổng quan ngôn ngữ, công cụ hỗ trợ tổng quan đề tài Chương giới thiệu tảng ứng dụng phát triển đề tài chúng em Cách mà bọn em kết nối tạo hệ thống để đem đến tin vắn tắt gọn Bên cạnh định nghĩa nguồn tin Đem lại nhìn khát quát đề tài Chương 2: Áp dụng phương pháp học máy xử lý ngơn ngữ Chương trình bày giải pháp kỹ thuật sử dụng cho đề tài Với đề tài việc thu thập, phân tích rút gọn tin thành tin vắn Việc trọng tâm phải để ý áp dụng thuật toán để sử lý câu chữ, cho sau rút gọn, tin mang lại nội dung ý nghĩa Chương 3: Trình bày trình thực nghiệm đánh giá kết thu thực nghiệm So sánh kết với tập mẫu chọn ban đầu Từ đánh giá cải thiện thuật toán LỜI CAM ĐOAN Lời cam đoan viết Xem cách viết lời cam đoan Mục Error: Reference source not found MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU TÓM TẮT ĐỒ ÁN CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1Tổng quan ngôn ngữ công cụ hỗ trợ 1.1.1Tổng quan 1.1.2Các công c 1.2Tổng quan nội dung thông tin sử dụ 1.3 Tổng quan học máy 1.3.1Giới thiệu h 1.3.2Giới thiệu 1.3.3Giới thiệu v 1.4Quy trình xử lý tóm tắt văn 1.5Tổng quan thuật toán sử dụng tóm tắt văn bả 1.5.1Thuật tốn 1.5.2Thuật tốn 1.5.3Thuật tốn CHƯƠNG THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 2.1Phân tích hệ thống 2.1.1Biểu đồ ph 2.1.2Biểu đồ Us 2.1.3Xác định a 2.1.4Biểu đồ Us 2.1.5Đặc tả 2.2Thiết kế giao diện người dùng 2.2.1Các chức n 2.2.2Phân quyền 2.2.3 Nội dung trang 23 2.2.4 Cấu trúc trang web thực tế .24 2.3 Chuẩn bị liệu đầu vào 26 2.3.1 Thu thập liệu .26 2.3.2 Bóc tách & Lọc liệu dạng chuẩn 29 2.4 Xử lý liệu chuẩn hoá 30 2.4.1 Tách câu văn 30 2.4.2 Tách từ câu 30 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực 30 2.4.4 Xây dựng đoạn văn tóm tắt 30 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 31 3.1 Nộp cứng 31 3.1.1 Nộp mềm 31 3.2 Bản quyền kết nghiên cứu 31 KẾT LUẬN 33 Kết luận chung 33 Hướng phát triển 33 Kiến nghị đề xuất .33 TÀI LIỆU THAM KHẢO 34 PHỤ LỤC 35 Phụ lục Mẫu trang bìa đồ án 35 Phụ lục Mẫu trang bìa phụ đồ án .37 Phụ lục Mẫu nhận xét đồ án 39 DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Xem Mục i DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ khối hệ thống (Xem thêm Mục Error: Reference source not found) ii DANH MỤC BẢNG BIỂU Bảng 1.1 Kết thí nghiệm (Xem thêm Mục Error: Reference source not found) iii # Tìm tất thẻ lấy thuộc tính href chứa link trỏ đến viết links = [link.find('a').attrs["href"] for link in titles] 2.2.1.3.4 Đối với thành phần khác Các viết có chung mẫu khơng thay đổi nhiều tuỳ viết, từ xác định xác thẻ chứa thành phần như: tiêu đề, thời gian đăng bài, mô tả viết, ảnh đại diện viết nội dung viết Vẫn sử dụng thư viện bs4 để tách thành phần khỏi mã nguồn đưa trạng thái văn tiền xử lý Mã nguồn: # Lấy tiêu đề viết title = soup.find("h1", class_="article-title").text # Lấy ngày đăng viết date = soup.find("div", class_="date-time").text # Lấy mô tả viết abstract = soup.find("h2", class_="sapo").text # Lấy nội dung viết body = soup.find("div", id="main-detail-body").text # Lấy ảnh đại diện viết image = body.img['src'] 2.3.2 Bóc tách & Lọc liệu dạng chuẩn Văn đầu vào chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa, từ viết tắt, viết hoa, điều làm ảnh hưởng tới bước sau nên cần phải xử lý văn thu Chúng ta biến đổi văn chữ thường loại bỏ khoảng trắng thừa 30 2.2.1.4Bóc tách liệu Văn tách từ thẻ html thư viện bs4 Từ đó, loại bỏ thành phần dư thừa tên thẻ thành phần khác file html 2.2.1.5 Lọc liệu dạng chuẩn Văn loại bỏ ký tự đặc biệt, ký tự xuống dòng ký tự khơng có nhiều ý nghĩa Khi văn khơng thay đổi nhiều có khả giữ nguyên nội dung ban đầu văn 2.4 Xử lý liệu chuẩẩ̉n hoá 2.4.1 Tách câu văn 2.4.2 Tách từ câu 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực Để phục vụ cho phương pháp tóm tắt bước tiếp theo, cần chuyển câu văn (độ dài ngắn khác nhau) thành vector số thực có độ dài cố định, cho phải đảm bảo "độ khác nhau" ý nghĩa câu tương tự độ sai khác vector tạo 2.4.4 Xây dựng đoạn văn tóm tắt Với việc áp dụng thuật toán để xử lý văn bản, kết trả đoạn văn có nội dung tương tự nhau, chúng cần phải xác định độ giống so với văn gốc, từ định nội dung sử dụng thuật toán Việc cho phép cho việc xử lý nội dung báo trang khác lọc loại bỏ viết bị trùng lặp nội dung, tránh gây tiêu tốn tài nguyên hệ thống 31 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Nộp cứng Sinh viên (hoặc nhóm sinh viên với tối đa thành viên làm chung đề tài) nộp 01 đồ án TTCS văn phòng khoa CNTT trước ngày bảo vệ 03 ngày Mỗi đồ án phải có đặc điểm sau: Được in mặt hai mặt nhằm tiết kiệm không gian lưu trữ Được đóng bìa mềm có bìa bóng kính Lưu ý: khơng dùng bìa cứng Quyển phải có chữ ký sinh viên sau Lời cam đoan giảng viên hướng dẫn 3.1.1 Nộp mềm Sinh viên nộp mềm đồ án TTCS theo Giảng viên hướng dẫn Mỗi sinh viên nhóm sinh viên phải nộp đủ toàn nội dung làm đồ án TTCS (quyển file mềm dạng docx pdf; project bao gồm mã nguồn hướng dẫn cài đặt) Tất đặt thư mục đặt tên theo: manhom_tendetai_tengvhd_nam.rar Sinh viên nhóm sinh viên nộp cho GVHD dạng link tới file gửi lên cloud (google, microsoft, v.v.) copy cho GVHD 3.2 Bản quyền kết nghiên cứu Đồ án TTCS sinh viên thường thuộc hai kiểu sau đây: Thực nhiệm vụ để hồn thành q trình học tập Sinh viên tự tìm điều kiện làm việc để hồn thành đồ án Do đó, sinh viên có quyền khai thác sử dụng đồ án vào việc khác Đồng thời, Khoa Cơng nghệ thơng tin có tồn quyền sử dụng kết đồ án cam kết chia sẻ kết đồ án cho tất quan tâm có yêu cầu Thực đề tài, nhiệm vụ ý đồ chiến lược, chương trình khoa học lao động sản xuất giảng viên hướng dẫn, sở đào tạo 32 (trung tâm, viện nghiên cứu, công ty, v.v.), sở đào tạo cung cấp phương tiện điều kiện làm việc khác (máy móc, sách vở, điện thoại, truy cập internet, máy in, dụng cụ thiết bị thí nghiệm, kinh phí, v.v.) Trong trường hợp này, tồn quyền đồ án không thuộc sinh viên Sinh viên chỉỉ̉ người tham gia thực nên không tuỳ tiện sử dụng nơi khác với mục đích khác Khi sinh viên thực đề tài theo hình thức này, vai trị giảng viên hướng dẫn định hướng, cung cấp tài liệu tham khảo (nếu có), tạo điều kiện sở vật chất (chỗ ngồi, máy tính, máy in, vật tư tiêu hao, phương tiện thông tin liên lạc, internet v.v.) để hồn thành cơng việc 33 KẾT LUẬN Kết luận chung Xem Mục Error: Reference source not found Hướng phát triển (Nếu có) Kiến nghị đề xuất (Nếu có) 34 TÀI LIỆU THAM KHẢO [1] T H Cormen, C E Leiserson, and R L Rivet, Introduction to Algorithm MIT Press, McGraw-Hill, 1990 [2] J W DuBois, S Schuetze-Coburn, S Cumming, and D Paolino, “Outline of discourse transcription,” in Talking Data: Transcription and Coding in Discourse Research, J A Edwards and M D Lampert, Ed Hillsdale, NJ: Lawrence Erlbaum Associates, 1993, pp 45-89 [3] J M Airey, J H Rohfl, F Brooks Jr., “Towards Image Realism with Interactive Update Rates in Complex Virtual Building Environments,” Comptuer Graphics, Vol 24, No 2, pp 41-50, 1990 [4] S Brandt, G Nutt, T Berk, M Humphrey, “Soft Real time Application Execution with Dynamic Quality of Service Assurance,” in Proceedings of the Sixth IEEE/IFIP International Workshop on Quality of Service, Hawaii, USA, May 1998, pp 154-163 [5] K Riley, “Language theory: Applications versus practice,” presented at the Conf of the Modern Language Association, Boston, MA, December 27-30, 1990 [6] J Jones (1991) Networks (2nd ed.) [Online] Available: http://www.atm.com 35 PHỤ LỤC Phụ lục Mẫu trang bìa đồ án (Xem trang sau) HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TOÁN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 Giảng viên hướng dẫn: Hà Nội, 10-2021 Phụ lục Mẫu trang bìa phụ đồ án (Xem trang sau) HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 TRẦN THU HÀ AT150345 Nhóm 68 Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Hà Nội, 10-2021 Phụ lục Mẫu nhận xét đồ án (Xem trang sau) ĐÁNH GIÁ QUYỂN ĐỒ ÁN THỰC TẬP CƠ SỞ (Dùng cho giảng viên hướng dẫn) Tên giảng viên đánh giá: Họ tên Sinh viên: Tên đồ án: Chọn mức điểm phù hợp cho sinh viên đây: Rất (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5) Có kết hợp lý thuyết thực hành (20) Nêu rõ tính cấp thiết quan trọng đề tài, vấn đ giả thuyết (bao gồm mục đích tính phù hợp) phạm dụng đồ án Cập nhật kết nghiên cứu gần (trong nước/ Nêu rõ chi tiết phương pháp nghiên cứu/giải v Có kết mơ phỏng/thưc nghiệm trình bày rõ ràng đạt Có khả phân tích đánh giá kết (15) Kế hoạch làm việc rõ ràng bao gồm mục tiêu phươn thực dựa kết nghiên cứu lý thuyết cách có hệ Kết trình bày cách logic dễ hiểu, tất phân tích đánh giá thỏa đáng Trong phần kết luận, tác giả chỉỉ̉ rõ khác biệt (nếu có đạt mục tiêu ban đầu đề đồng thời cung cấp lập đề xuất hướng giải thực tương lai Kỹ viết đồ án (10) Đồ án trình bày mẫu quy định với cấu trúc ch logic đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, thứ tự giải thích hay đề cập đến đồ án, có lề, sau dấu chấm, dấu phẩy v.v), có mở đầu chương kết luận chư liệt kê tài liệu tham khảo có trích dẫn quy định Kỹ viết xuất sắc (cấu trúc câu chuẩn, văn phong k lập luận logic có sở, từ vựng sử dụng phù hợp v.v.) Thành tựu nghiên cứu khoa học (5) (chọn trường Có báo khoa học đăng chấp nhận đăng/đạt giải SVNC khoa học giải cấp Viện trở lên/các giải thưởng khoa học (quốc 0a tế/trong nước) từ giải trở lên/ Có đăng ký phát minh sáng chế Được báo cáo hội đồng cấp Viện hội nghị sinh viên nghiên cứu khoa học không đạt giải từ giải trở lên/Đạt giải 0b khuyến khích kỳ thi quốc gia quốc tế khác chuyên ngành TI contest 0c Khơng có thành tích nghiên cứu khoa học Điểm tổng Điểm tổng quy đổi thang 10 /50 Nhận xét khác (về thái độ tinh thần làm việc sinh viên) Ngày: … / … / 20… Người nhận xét (Ký ghi rõ họ tên) ... chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với công nghệ phát triển nay, việc học máy vấn đề khơng cịn q khó khăn,... thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời... 1. 2Tổng quan nội dung thông tin sử dụ 1.3 Tổng quan học máy 1.3.1Giới thiệu h 1.3.2Giới thiệu 1.3.3Giới thiệu v 1.4Quy trình xử lý tóm tắt văn 1. 5Tổng quan thuật tốn sử dụng tóm tắt

Ngày đăng: 10/02/2022, 20:03