Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
7,79 MB
Nội dung
HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG WEBSITE TỔNG HỢP VÀ TÓM TẮT TIN TỨC Sinh viên thực hiện: TRẦN CAO MINH BÁCH AT150204 VŨ THỊ ÁNH AT150504 TRẦN THỊ DUNG AT150310 Nhóm Giảng viên hướng dẫn: ThS LÊ ĐỨC THUẬN LỜI NÓI ĐẦU Ngày nay, với phát triển mạnh mẽ khoa học công nghệ Công nghệ Thơng tin ngành có vị dẫn đầu có vai trị lớn phát triển chung Các ứng dụng cơng nghệ thông tin áp dụng lĩnh vực nghiên cứu khoa học lĩnh vực đời sống Là phần Công nghệ Thông tin, Cơng nghệ web có phát triển mạnh mẽ phổ biến nhanh lợi ích mà mang lại cho cộng đồng lớn Nhận thức nhu cầu tìm hiểu thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thơng tin hàng ngày, tình hình xã hội, trị, thời website tin tức đời nhu cầu tất yếu Vì thời gian ngày ít, thơng tin lại nhiều Nên đơi khi, bao trọn hết thông tin mà cần Khiến cho việc nắm bắt thơng tin bị hạn chế Do đó, từ vấn đề chúng em vận dụng ngôn ngữ Python, Java, MySQL công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp Tóm tắt Tin tức Với công nghệ phát triển nay, việc học máy vấn đề khơng cịn q khó khăn, cho phép dạy cho cỗ máy học hỏi tự làm với yêu cầu đề Trong đề tài này, mơ hình học máy mà bọn em muốn sử dụng mơ hình xử lý liệu ngơn ngữ mức độ văn Sau thu thập phân loại, văn xử lý trả kết dạng tin vắn tắt, mang đầy đủ ý nghĩa nội dung tin gốc Trong đó, yếu tố mang tính ảnh hưởng mơ hình hướng đến nhằm xử lý liệu ngôn ngữ tự nhiên NLP Với mơ hình này, thư viện đề cập phần sau, chúng em triển khai phát triển thêm tính phù hợp hơn, tăng độ xác độ tin cậy sử dụng mơ hình Bên cạnh xử lý tin từ văn thành giọng nói, giúp cho người dùng tiện lợi nhiều việc cập nhật tin tức Phát triển xa áp dụng mơ hình vào để phát triển xử lý khối liệu văn lớn như: sách, tài liệu hay loại truyện, tiểu thuyết Phần cho người đọc có hình dung rõ tác phẩm mà muốn trải nghiệm Cũng giúp cho người dùng tiếp cận cách nhanh chóng khái qt vấn đề cần tìm hiểu Nội dung đề cương chia làm 03 phần sau: Chương 1: Tổng quan ngôn ngữ, công cụ hỗ trợ tổng quan đề tài Chương giới thiệu tảng ứng dụng phát triển đề tài chúng em Cách mà bọn em kết nối tạo hệ thống để đem đến tin vắn tắt gọn Bên cạnh định nghĩa nguồn tin Đem lại nhìn khát quát đề tài Chương 2: Áp dụng phương pháp học máy xử lý ngơn ngữ Chương trình bày giải pháp kỹ thuật sử dụng cho đề tài Với đề tài việc thu thập, phân tích rút gọn tin thành tin vắn Việc trọng tâm phải để ý áp dụng thuật toán để sử lý câu chữ, cho sau rút gọn, tin mang lại nội dung ý nghĩa Chương 3: Trình bày trình thực nghiệm đánh giá kết thu thực nghiệm So sánh kết với tập mẫu chọn ban đầu Từ đánh giá cải thiện thuật tốn LỜI CAM ĐOAN Lời cam đoan viết Xem cách viết lời cam đoan Mục Error: Reference source not found MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Xem Mục DANH MỤC HÌNH VẼ Xem thêm Mục Error: Reference source not found) DANH MỤC BẢNG BIỂU Xem thêm Mục Error: Reference source not found) TĨM TẮT ĐỒ ÁN Tóm tắt đồ án, có độ dài 1-2 trang, trình bày Chi tiết xem Mục Error: Reference source not found CHƯƠNG CƠ SỞ LÝ THUYẾT Tóm tắt nội dung Chương trình bày đây, dài khoảng từ đến 10 dịng 1.1 Tổng quan ngơn ngữ công cụ hỗ trợ 1.1.1 Tổng quan lập trình Python Laravel Python ngơn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, tạo Guido van Rossum Nó dễ dàng để tìm hiểu, Python hồn tồn tạo kiểu động sử dụng chế cấp phát nhớ tự động Python có cấu trúc liệu cấp cao mạnh mẽ cách tiếp cận đơn giản hiệu lập trình hướng đối tượng Cú pháp lệnh Python điểm cộng vơ lớn rõ ràng, dễ hiểu cách gõ linh động làm cho nhanh chóng trở thành ngơn ngữ lý tưởng để viết script phát triển ứng dụng nhiều lĩnh vực, hầu hết tảng Laravel PHP framework mã nguồn mở hồn tồn miễn phí, phát triển Taylor Otwell, phiên cho mắt vào năm 2011 Laravel đời với mục đích hỗ trợ phát triển ứng dụng web dựa mơ hình Model – View – Controller (MVC) 1.1.2 Các cơng cụ hỗ trợ Hiện có nhiều trình hỗ trợ soạn thảo mã nguồn, cho phép người lập trình chạy mã nguồn Visual Studio Code số Với extention tích hợp dễ dàng, giúp cho việc lập trình thực thi mã nguồn tiện lợi, hiệu Đó cơng cụ mạnh mẽ mà chúng em sử dụng xuyên suốt đề tài 1.2 Tổng quan nội dung thông tin sử dụng Với thơng tin tại, có q nhiều thơng tin để phải chọn lọc Bên cạnh nguồn thông tin cần phải xác thực từ bên thống Vì vậy, để phát triển bước đầu cho hệ thống, nguồn thông tin cung cấp đầu vào 10 - Bước 5: Sử dụng phương thức find() thư viện bs4 để tìm tất link trỏ đến viết nằm thẻ Mã nguồn: # Nạp thư viện from bs4 import BeautifulSoup import requests # Gửi request cho trang https://tuoitre.vn news = requests.get(‘https://tuoitre.vn’) # Định dạng lại mã nguồn lấy từ request soup = BeautifulSoup(news.content, "html.parser") # Tìm tất thẻ chứa tiêu đề titles = soup.findAll('h2', class_='title-name') # Tìm tất thẻ lấy thuộc tính href chứa link trỏ đến viết links = [link.find('a').attrs["href"] for link in titles] 43 2.2.1.3.4 Đối với thành phần khác Các viết có chung mẫu khơng thay đổi nhiều tuỳ viết, từ xác định xác thẻ chứa thành phần như: tiêu đề, thời gian đăng bài, mô tả viết, ảnh đại diện viết nội dung viết Vẫn sử dụng thư viện bs4 để tách thành phần khỏi mã nguồn đưa trạng thái văn tiền xử lý Mã nguồn: # Lấy tiêu đề viết title = soup.find("h1", class_="article-title").text # Lấy ngày đăng viết date = soup.find("div", class_="date-time").text # Lấy mô tả viết abstract = soup.find("h2", class_="sapo").text # Lấy nội dung viết body = soup.find("div", id="main-detail-body").text # Lấy ảnh đại diện viết image = body.img['src'] 2.3.2 Bóc tách & Lọc liệu dạng chuẩn Văn đầu vào chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa, từ viết tắt, viết hoa, điều làm ảnh hưởng tới bước sau nên cần phải xử lý văn thu Chúng ta biến đổi văn chữ thường loại bỏ khoảng trắng thừa 44 2.2.1.4 Bóc tách liệu Văn tách từ thẻ html thư viện bs4 Từ đó, loại bỏ thành phần dư thừa tên thẻ thành phần khác file html 2.2.1.5 Lọc liệu dạng chuẩn Văn loại bỏ ký tự đặc biệt, ký tự xuống dịng ký tự khơng có nhiều ý nghĩa Khi văn khơng thay đổi nhiều có khả giữ nguyên nội dung ban đầu văn 2.4 Xử lý liệu chuẩn hoá 2.4.1 Tách câu văn 2.4.2 Tách từ câu 2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực Để phục vụ cho phương pháp tóm tắt bước tiếp theo, cần chuyển câu văn (độ dài ngắn khác nhau) thành vector số thực có độ dài cố định, cho phải đảm bảo "độ khác nhau" ý nghĩa câu tương tự độ sai khác vector tạo 2.4.4 Xây dựng đoạn văn tóm tắt Với việc áp dụng thuật tốn để xử lý văn bản, kết trả đoạn văn có nội dung tương tự nhau, chúng cần phải xác định độ giống so với văn gốc, từ định nội dung sử dụng thuật toán Việc cho phép cho việc xử lý nội dung báo trang khác lọc loại bỏ viết bị trùng lặp nội dung, tránh gây tiêu tốn tài nguyên hệ thống 45 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Nộp cứng Sinh viên (hoặc nhóm sinh viên với tối đa thành viên làm chung đề tài) nộp 01 đồ án TTCS văn phịng khoa CNTT trước ngày bảo vệ 03 ngày Mỗi đồ án phải có đặc điểm sau: • Được in mặt hoặc hai mặt nhằm tiết kiệm khơng gian lưu trữ • Được đóng bìa mềm có bìa bóng kính Lưu ý: khơng dùng bìa cứng • Quyển phải có chữ ký sinh viên sau Lời cam đoan giảng viên hướng dẫn 3.1.1 Nộp mềm Sinh viên nộp mềm đồ án TTCS theo Giảng viên hướng dẫn Mỗi sinh viên hoặc nhóm sinh viên phải nộp đủ tồn nội dung làm đồ án TTCS (quyển file mềm dạng docx pdf; project bao gồm mã nguồn hướng dẫn cài đặt) Tất đặt thư mục đặt tên theo: manhom_tendetai_tengvhd_nam.rar Sinh viên hoặc nhóm sinh viên nộp cho GVHD dạng link tới file gửi lên cloud (google, microsoft, v.v.) hoặc copy cho GVHD 3.2 Bản quyền kết nghiên cứu Đồ án TTCS sinh viên thường thuộc hai kiểu sau đây: • Thực nhiệm vụ để hồn thành q trình học tập Sinh viên tự tìm điều kiện làm việc để hồn thành đồ án Do đó, sinh viên có quyền khai thác sử dụng đồ án vào việc khác Đồng thời, Khoa Công nghệ thông tin có tồn quyền sử dụng kết đồ án cam kết chia sẻ kết đồ án cho tất quan tâm có u cầu 46 • Thực đề tài, nhiệm vụ ý đồ chiến lược, chương trình khoa học lao động sản xuất giảng viên hướng dẫn, sở đào tạo (trung tâm, viện nghiên cứu, công ty, v.v.), sở đào tạo cung cấp phương tiện điều kiện làm việc khác (máy móc, sách vở, điện thoại, truy cập internet, máy in, dụng cụ thiết bị thí nghiệm, kinh phí, v.v.) Trong trường hợp này, tồn quyền đồ án không thuộc sinh viên Sinh viên chỉ người tham gia thực nên không tuỳ tiện sử dụng nơi khác với mục đích khác Khi sinh viên thực đề tài theo hình thức này, vai trị giảng viên hướng dẫn định hướng, cung cấp tài liệu tham khảo (nếu có), tạo điều kiện sở vật chất (chỗ ngồi, máy tính, máy in, vật tư tiêu hao, phương tiện thông tin liên lạc, internet v.v.) để hồn thành cơng việc 47 KẾT LUẬN Kết luận chung Xem Mục Error: Reference source not found Hướng phát triển (Nếu có) Kiến nghị đề xuất (Nếu có) 48 TÀI LIỆU THAM KHẢO [1] T H Cormen, C E Leiserson, and R L Rivet, Introduction to Algorithm MIT Press, McGraw-Hill, 1990 [2] J W DuBois, S Schuetze-Coburn, S Cumming, and D Paolino, “Outline of discourse transcription,” in Talking Data: Transcription and Coding in Discourse Research, J A Edwards and M D Lampert, Ed Hillsdale, NJ: Lawrence Erlbaum Associates, 1993, pp 45-89 [3] J M Airey, J H Rohfl, F Brooks Jr., “Towards Image Realism with Interactive Update Rates in Complex Virtual Building Environments,” Comptuer Graphics, Vol 24, No 2, pp 41-50, 1990 [4] S Brandt, G Nutt, T Berk, M Humphrey, “Soft Real time Application Execution with Dynamic Quality of Service Assurance,” in Proceedings of the Sixth IEEE/IFIP International Workshop on Quality of Service, Hawaii, USA, May 1998, pp 154-163 [5] K Riley, “Language theory: Applications versus practice,” presented at the Conf of the Modern Language Association, Boston, MA, December 27-30, 1990 [6] J Jones (1991) Networks (2nd ed.) [Online] Available: http://www.atm.com 49 PHỤ LỤC Phụ lục Mẫu trang bìa đồ án (Xem trang sau) HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TOÁN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 Phụ lục Mẫu trang bìa phụ đồ án (Xem trang sau) HỌC VIỆN KỸ THUẬT MẬT MÃ KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC THỰC TẬP CƠ SỞ Đề tài: ÁP DỤNG MƠ HÌNH HỌC SÂU TRONG BÀI TỐN PHÂN LOẠI ẢNH Sinh viên thực hiện: LÊ LUNG LINH AT150302 NGUYỄN VĂN NAM AT150033 Phụ lục Mẫu nhận xét đồ án (Xem trang sau) ĐÁNH GIÁ QUYỂN ĐỒ ÁN THỰC TẬP CƠ SỞ (Dùng cho giảng viên hướng dẫn) Tên giảng viên đánh giá: Họ tên Sinh viên: MSSV: Tên đồ án: Chọn mức điểm phù hợp cho sinh viên trình bày theo tiêu chí đây: Rất (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5) Có kết hợp lý thuyết thực hành (20) Nêu rõ tính cấp thiết quan trọng đề tài, vấn đề giả thuyết (bao gồm mục đích tính phù hợp) phạm vi ứng dụng đồ án Cập nhật kết nghiên cứu gần (trong nước/quốc tế) Nêu rõ chi tiết phương pháp nghiên cứu/giải vấn đề Có kết mơ phỏng/thưc nghiệm trình bày rõ ràng kết 5 đạt Có khả phân tích đánh giá kết (15) Kế hoạch làm việc rõ ràng bao gồm mục tiêu phương pháp thực dựa kết nghiên cứu lý thuyết cách có hệ thống Kết trình bày cách logic dễ hiểu, tất kết 5 5 phân tích đánh giá thỏa đáng Trong phần kết luận, tác giả chỉ rõ khác biệt (nếu có) kết đạt mục tiêu ban đầu đề đồng thời cung cấp lập luận để đề xuất hướng giải thực tương lai Kỹ viết đồ án (10) Đồ án trình bày mẫu quy định với cấu trúc chương logic đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, đánh số thứ tự giải thích hay đề cập đến đồ án, có lề, dấu cách sau dấu chấm, dấu phẩy v.v), có mở đầu chương kết luận chương, có liệt kê tài liệu tham khảo có trích dẫn quy định Kỹ viết xuất sắc (cấu trúc câu chuẩn, văn phong khoa học, lập luận logic có sở, từ vựng sử dụng phù hợp v.v.) Thành tựu nghiên cứu khoa học (5) (chọn trường hợp) 0a Có báo khoa học đăng hoặc chấp nhận đăng/đạt giải SVNC khoa học giải cấp Viện trở lên/các giải thưởng khoa học (quốc tế/trong nước) từ giải trở lên/ Có đăng ký phát minh sáng chế 0b Được báo cáo hội đồng cấp Viện hội nghị sinh viên nghiên cứu khoa học không đạt giải từ giải trở lên/Đạt giải khuyến khích kỳ thi quốc gia quốc tế khác chuyên ngành TI contest Khơng có thành tích nghiên cứu khoa học 0c Điểm tổng Điểm tổng quy đổi thang 10 Nhận xét khác (về thái độ tinh thần làm việc sinh viên) /50 Ngày: … / … / 20… Người nhận xét (Ký ghi rõ họ tên) ... hiểu thơng tin, giải trí xã hội, đời hàng loạt website cho mục đích thương mại, giải trí, tin tức Để đáp ứng với việc cập nhật thông tin hàng ngày, tình hình xã hội, trị, thời website tin tức... hợp hợp & & tóm tóm tắt tắt thơng thông tin tin Quản Quản lý lý hệ hệ thống thống Thay Thay đổi đổi thông thông tin tin Cập Cập nhật nhật thơng thơng tin tin Xố Xố & & Sửa Sửa nội nội dung dung... thông tin sử dụng Với thông tin tại, có q nhiều thơng tin để phải chọn lọc Bên cạnh nguồn thơng tin cần phải xác thực từ bên thống Vì vậy, để phát triển bước đầu cho hệ thống, nguồn thông tin cung