(TIỂU LUẬN) xây DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

53 4 0
(TIỂU LUẬN) xây DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG HỢP VÀ TÓM TẮT TIN TỨC Sinh viên thực hiện: TRẦN CAO MINH BÁCH AT150204 VŨ THỊ ÁNH AT150504 TRẦN THỊ DUNG AT150310 Nhóm Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Tieu luan Hà Nội, 10-2021 Tieu luan LỜI NÓI ĐẦU Ngày nay, với phát triển mạnh mẽ khoa học công nghệ Công nghệ Thông tin ngành có vị dẫn đầu có vai trị lớn phát triển chung Các ứng dụng cơng nghệ thơng tin áp dụng lĩnh vực nghiên cứu khoa học lĩnh vực đời sống Là phần Công nghệ Thông tin, Công nghệ web có phát triển mạnh mẽ phổ biến nhanh lợi ích mà mang lại cho cộng đồng lớn Nhận thức nhu cầu tìm hiểu thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thông tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời nhu cầu tất yếu Vì thời gian ngày ít, thơng tin lại nhiều Nên đơi khi, bao trọn hết thông tin mà cần Khiến cho việc nắm bắt thông tin bị hạn chế Do đó, từ vấn đề chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với công nghệ phát triển nay, việc học máy vấn đề khơng cịn q khó khăn, cho phép dạy cho cỗ máy học hỏi tự làm với yêu cầu đề Trong đề tài này, mơ hình học máy mà bọn em muốn sử dụng mơ hình xử lý liệu ngơn ngữ mức độ văn Sau thu thập phân loại, văn xử lý trả kết dạng tin vắn tắt, mang đầy đủ ý nghĩa nội dung tin gốc Trong đó, yếu tố mang tính ảnh hưởng mơ hình hướng đến nhằm xử lý liệu ngơn ngữ tự nhiên NLP Với mơ hình này, thư viện đề cập phần sau, chúng em triển khai phát triển thêm tính phù hợp hơn, tăng độ xác độ tin cậy sử dụng mơ hình Bên cạnh xử lý tin từ văn thành giọng nói, giúp cho người dùng tiện lợi nhiều việc cập nhật tin tức Phát triển xa áp dụng mơ hình vào để phát triển xử lý khối liệu văn lớn như: sách, tài liệu hay loại truyện, tiểu thuyết Phần cho người đọc có Tieu luan hình dung rõ tác phẩm mà muốn trải nghiệm Cũng giúp cho người dùng tiếp cận cách nhanh chóng khái quát vấn đề cần tìm hiểu Nội dung của đề cương này được chia làm 03 phần như sau: Chương 1: Tổng quan ngôn ngữ, công cụ hỗ trợ tổng quan đề tài Chương giới thiệu tảng ứng dụng phát triển đề tài chúng em Cách mà bọn em kết nối tạo hệ thống để đem đến tin vắn tắt gọn Bên cạnh định nghĩa nguồn tin Đem lại nhìn khát quát đề tài Chương 2: Áp dụng phương pháp học máy xử lý ngơn ngữ Chương trình bày giải pháp kỹ thuật sử dụng cho đề tài Với đề tài việc thu thập, phân tích rút gọn tin thành tin vắn Việc trọng tâm phải để ý áp dụng thuật toán để sử lý câu chữ, cho sau rút gọn, tin mang lại nội dung ý nghĩa Chương 3: Trình bày trình thực nghiệm đánh giá kết thu thực nghiệm So sánh kết với tập mẫu chọn ban đầu Từ đánh giá cải thiện thuật tốn Tieu luan LỜI CAM ĐOAN Lời cam đoan viết Xem cách viết lời cam đoan Mục Error: Reference source not found Tieu luan MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU iii TÓM TẮT ĐỒ ÁN .iv CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Tổng quan ngôn ngữ công cụ hỗ trợ 1.1.1 Tổng quan lập trình Python Laravel 1.1.2 Các công cụ hỗ trợ 1.2 Tổng quan nội dung thông tin sử dụng .1 1.3 Tổng quan học máy 1.3.1 Giới thiệu học máy .2 1.3.2 Giới thiệu NLP 1.3.3 Giới thiệu NLTK 1.4 Quy trình xử lý tóm tắt văn 1.5 Tổng quan thuật tốn sử dụng tóm tắt văn 1.5.1 Thuật toán K-Means Clustering 1.5.2 Thuật toán LSA (Latent Semantic Analysis) 1.5.3 Thuật toán Text Rank CHƯƠNG THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 2.1 Phân tích hệ thống 2.1.1 Biểu đồ phân rã chức 2.1.2 Biểu đồ Use Case tổng quát .10 2.1.3 Xác định actor chức 11 2.1.4 Biểu đồ Use case chi tiết .12 2.1.5 Đặc tả ca sử dụng 13 2.2 Thiết kế giao diện người dùng 23 2.2.1 Các chức 23 2.2.2 Phân quyền cho User 23 Tieu luan 2.2.3 Nội dung trang 23 2.2.4 Cấu trúc trang web thực tế .24 2.3 Chuẩn bị liệu đầu vào 26 2.3.1 Thu thập liệu 26 2.3.2 Bóc tách & Lọc liệu dạng chuẩn 29 2.4 Xử lý liệu chuẩn hoá 30 2.4.1 Tách câu văn 30 2.4.2 Tách từ câu 30 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực 30 2.4.4 Xây dựng đoạn văn tóm tắt 30 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 31 3.1 Nộp cứng 31 3.1.1 Nộp mềm 31 3.2 Bản quyền kết nghiên cứu .31 KẾT LUẬN 33 Kết luận chung 33 Hướng phát triển 33 Kiến nghị đề xuất .33 TÀI LIỆU THAM KHẢO 34 PHỤ LỤC 35 Phụ lục Mẫu trang bìa đồ án 35 Phụ lục Mẫu trang bìa phụ đồ án .37 Phụ lục Mẫu nhận xét đồ án 39 Tieu luan DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Xem Mục i Tieu luan DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ khối hệ thống .3 (Xem thêm Mục Error: Reference source not found) ii Tieu luan DANH MỤC BẢNG BIỂU Bảng 1.1 Kết thí nghiệm (Xem thêm Mục Error: Reference source not found) iii Tieu luan Hình 2.6: Hình ảnh từ báo VnExpress 2.3.1.2 Bóc tách liệu từ mã nguồn web: 2.2.1.3.1 Xác định thành phần cần thu thập - Link viết - Thời gian đăng - Tiêu đề viết - Mô tả viết - Ảnh đại diện viết - Nội dung viết 28 Tieu luan 2.2.1.3.2 Phân tích bóc tách liệu từ mã nguồn Với thành phần liệt kê trên, trang web có cấu trúc mã nguồn khác Vì vậy, tài liệu xin đề cập đến việc phân tích bóc tách liệu từ mã nguồn trang tuoitre.vn 2.2.1.3.3 Đối với Link viết Các viết thị trang chủ trang dạng tiêu đề kèm theo link viết thẻ có thuộc tính href chứa link đến viết Sử dụng thư viện bs4 request Python để xử lý theo bước: - Bước 1: Gửi request với tham số link trang chủ - Bước 2: Lấy nội dung mã nguồn request phương thức content thư viện request - Bước 3: Sử dụng thư viện bs4 để định dạng lại cho nội dung mã nguồn lấy từ request - Bước 4: Sử dụng phương thức findAll() thư viện bs4 để tìm kiếm tất thẻ chứa link trỏ đến viết - Bước 5: Sử dụng phương thức find() thư viện bs4 để tìm tất link trỏ đến viết nằm thẻ Mã nguồn: # Nạp thư viện from bs4 import BeautifulSoup import requests # Gửi request cho trang https://tuoitre.vn news = requests.get(‘https://tuoitre.vn’) # Định dạng lại mã nguồn lấy từ request soup = BeautifulSoup(news.content, "html.parser") # Tìm tất thẻ chứa tiêu đề titles = soup.findAll('h2', class_='title-name') 29 Tieu luan # Tìm tất thẻ lấy thuộc tính href chứa link trỏ đến viết links = [link.find('a').attrs["href"] for link in titles] 2.2.1.3.4 Đối với thành phần khác Các viết có chung mẫu khơng thay đổi nhiều tuỳ viết, từ xác định xác thẻ chứa thành phần như: tiêu đề, thời gian đăng bài, mô tả viết, ảnh đại diện viết nội dung viết Vẫn sử dụng thư viện bs4 để tách thành phần khỏi mã nguồn đưa trạng thái văn tiền xử lý Mã nguồn: # Lấy tiêu đề viết title = soup.find("h1", class_="article-title").text # Lấy ngày đăng viết date = soup.find("div", class_="date-time").text # Lấy mô tả viết abstract = soup.find("h2", class_="sapo").text # Lấy nội dung viết body = soup.find("div", id="main-detail-body").text # Lấy ảnh đại diện viết image = body.img['src'] 2.3.2 Bóc tách & Lọc liệu dạng chuẩn Văn đầu vào chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa, từ viết tắt, viết hoa, điều làm ảnh hưởng tới bước sau nên cần phải xử lý văn thu được. Chúng ta biến đổi văn chữ thường và loại bỏ khoảng trắng thừa 30 Tieu luan 2.2.1.4Bóc tách liệu Văn tách từ thẻ html thư viện bs4 Từ đó, loại bỏ thành phần dư thừa tên thẻ thành phần khác file html 2.2.1.5 Lọc liệu dạng chuẩn Văn loại bỏ ký tự đặc biệt, ký tự xuống dòng ký tự khơng có nhiều ý nghĩa Khi văn khơng thay đổi nhiều có khả giữ nguyên nội dung ban đầu văn 2.4 Xử lý liệu chuẩn hoá 2.4.1 Tách câu văn 2.4.2 Tách từ câu 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực Để phục vụ cho phương pháp tóm tắt bước tiếp theo, cần chuyển câu văn (độ dài ngắn khác nhau) thành vector số thực có độ dài cố định, cho phải đảm bảo "độ khác nhau" ý nghĩa câu tương tự độ sai khác vector tạo 2.4.4 Xây dựng đoạn văn tóm tắt Với việc áp dụng thuật toán để xử lý văn bản, kết trả đoạn văn có nội dung tương tự nhau, chúng cần phải xác định độ giống so với văn gốc, từ định nội dung sử dụng thuật toán Việc cho phép cho việc xử lý nội dung báo trang khác lọc loại bỏ viết bị trùng lặp nội dung, tránh gây tiêu tốn tài nguyên hệ thống 31 Tieu luan CHƯƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Nộp cứng Sinh viên (hoặc nhóm sinh viên với tối đa thành viên làm chung đề tài) nộp 01 đồ án TTCS văn phòng khoa CNTT trước ngày bảo vệ 03 ngày Mỗi đồ án phải có đặc điểm sau:  Được in mặt hai mặt nhằm tiết kiệm không gian lưu trữ  Được đóng bìa mềm có bìa bóng kính Lưu ý: khơng dùng bìa cứng  Quyển phải có chữ ký sinh viên sau Lời cam đoan giảng viên hướng dẫn 3.1.1 Nộp mềm Sinh viên nộp mềm đồ án TTCS theo Giảng viên hướng dẫn Mỗi sinh viên nhóm sinh viên phải nộp đủ toàn nội dung làm đồ án TTCS (quyển file mềm dạng docx pdf; project bao gồm mã nguồn hướng dẫn cài đặt) Tất đặt thư mục đặt tên theo: manhom_tendetai_tengvhd_nam.rar Sinh viên nhóm sinh viên nộp cho GVHD dạng link tới file gửi lên cloud (google, microsoft, v.v.) copy cho GVHD 3.2 Bản quyền kết nghiên cứu Đồ án TTCS sinh viên thường thuộc hai kiểu sau đây:  Thực nhiệm vụ để hồn thành q trình học tập Sinh viên tự tìm điều kiện làm việc để hồn thành đồ án Do đó, sinh viên có quyền khai thác sử dụng đồ án vào việc khác Đồng thời, Khoa Cơng nghệ thơng tin có tồn quyền sử dụng kết đồ án cam kết chia sẻ kết đồ án cho tất quan tâm có yêu cầu  Thực đề tài, nhiệm vụ ý đồ chiến lược, chương trình khoa học lao động sản xuất giảng viên hướng dẫn, sở đào tạo 32 Tieu luan (trung tâm, viện nghiên cứu, công ty, v.v.), sở đào tạo cung cấp phương tiện điều kiện làm việc khác (máy móc, sách vở, điện thoại, truy cập internet, máy in, dụng cụ thiết bị thí nghiệm, kinh phí, v.v.) Trong trường hợp này, tồn quyền đồ án không thuộc sinh viên Sinh viên người tham gia thực nên không tuỳ tiện sử dụng nơi khác với mục đích khác Khi sinh viên thực đề tài theo hình thức này, vai trị giảng viên hướng dẫn định hướng, cung cấp tài liệu tham khảo (nếu có), tạo điều kiện sở vật chất (chỗ ngồi, máy tính, máy in, vật tư tiêu hao, phương tiện thông tin liên lạc, internet v.v.) để hồn thành cơng việc 33 Tieu luan KẾT LUẬN Kết luận chung Xem Mục Error: Reference source not found Hướng phát triển (Nếu có) Kiến nghị đề xuất (Nếu có) 34 Tieu luan TÀI LIỆU THAM KHẢO [1] T H Cormen, C E Leiserson, and R L Rivet, Introduction to Algorithm MIT Press, McGraw-Hill, 1990 [2] J W DuBois, S Schuetze-Coburn, S Cumming, and D Paolino, “Outline of discourse transcription,” in Talking Data: Transcription and Coding in Discourse Research, J A Edwards and M D Lampert, Ed Hillsdale, NJ: Lawrence Erlbaum Associates, 1993, pp 45-89 [3] J M Airey, J H Rohfl, F Brooks Jr., “Towards Image Realism with Interactive Update Rates in Complex Virtual Building Environments,” Comptuer Graphics, Vol 24, No 2, pp 41-50, 1990 [4] S Brandt, G Nutt, T Berk, M Humphrey, “Soft Real time Application Execution with Dynamic Quality of Service Assurance,” in Proceedings of the Sixth IEEE/IFIP International Workshop on Quality of Service, Hawaii, USA, May 1998, pp 154-163 [5] K Riley, “Language theory: Applications versus practice,” presented at the Conf of the Modern Language Association, Boston, MA, December 27-30, 1990 [6] J Jones (1991) Networks (2nd ed.) [Online] Available: http://www.atm.com 35 Tieu luan PHỤ LỤC Phụ lục Mẫu trang bìa đồ án (Xem trang sau) Tieu luan HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 Tieu luan TRẦN THU HÀ AT150345 Nhóm 68 Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Hà Nội, 10-2021 Phụ lục Mẫu trang bìa phụ đồ án (Xem trang sau) Tieu luan HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 TRẦN THU HÀ AT150345 Tieu luan Nhóm 68 Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN Hà Nội, 10-2021 Phụ lục Mẫu nhận xét đồ án (Xem trang sau) Tieu luan ĐÁNH GIÁ QUYỂN ĐỒ ÁN THỰC TẬP CƠ SỞ (Dùng cho giảng viên hướng dẫn) Tên giảng viên đánh giá: Họ tên Sinh viên: MSSV: Tên đồ án: Chọn mức điểm phù hợp cho sinh viên trình bày theo tiêu chí đây: Rất (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5) Có kết hợp lý thuyết thực hành (20) Nêu rõ tính cấp thiết quan trọng đề tài, vấn đề giả thuyết (bao gồm mục đích tính phù hợp) phạm vi ứng dụng đồ án Cập nhật kết nghiên cứu gần (trong nước/quốc tế) Nêu rõ chi tiết phương pháp nghiên cứu/giải vấn đề 5 5 5 Có kết mơ phỏng/thưc nghiệm trình bày rõ ràng kết đạt Có khả phân tích đánh giá kết (15) Kế hoạch làm việc rõ ràng bao gồm mục tiêu phương pháp thực dựa kết nghiên cứu lý thuyết cách có hệ thống Kết trình bày cách logic dễ hiểu, tất kết phân tích đánh giá thỏa đáng Trong phần kết luận, tác giả rõ khác biệt (nếu có) kết đạt mục tiêu ban đầu đề đồng thời cung cấp lập luận để đề xuất hướng giải thực tương lai Kỹ viết đồ án (10) Đồ án trình bày mẫu quy định với cấu trúc chương logic đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, đánh số thứ tự giải thích hay đề cập đến đồ án, có lề, dấu cách sau dấu chấm, dấu phẩy v.v), có mở đầu chương kết luận chương, có liệt kê tài liệu tham khảo có trích dẫn quy định Kỹ viết xuất sắc (cấu trúc câu chuẩn, văn phong khoa học, lập luận logic có sở, từ vựng sử dụng phù hợp v.v.) Thành tựu nghiên cứu khoa học (5) (chọn trường hợp) Có báo khoa học đăng chấp nhận đăng/đạt giải Tieu luan SVNC khoa học giải cấp Viện trở lên/các giải thưởng khoa học (quốc 0a tế/trong nước) từ giải trở lên/ Có đăng ký phát minh sáng chế Được báo cáo hội đồng cấp Viện hội nghị sinh viên nghiên cứu khoa học không đạt giải từ giải trở lên/Đạt giải 0b khuyến khích kỳ thi quốc gia quốc tế khác chuyên ngành TI contest 0c Khơng có thành tích nghiên cứu khoa học Điểm tổng /50 Điểm tổng quy đổi thang 10 Nhận xét khác (về thái độ tinh thần làm việc sinh viên) Ngày: … / … / 20… Người nhận xét (Ký ghi rõ họ tên) Tieu luan ... chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với cơng nghệ phát triển nay, việc học máy vấn đề khơng cịn khó khăn,... thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời... tính phù hợp hơn, tăng độ xác độ tin cậy sử dụng mơ hình Bên cạnh xử lý tin từ văn thành giọng nói, giúp cho người dùng tiện lợi nhiều việc cập nhật tin tức Phát triển xa áp dụng mơ hình vào để

Ngày đăng: 09/12/2022, 17:53

Tài liệu cùng người dùng

Tài liệu liên quan