Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
390,4 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO - BÁO CÁO MƠN HỌC XỬ LÍ NGƠN NGỮ TỰ NHIÊN Chun ngành: Cơng Nghệ Thơng Tin Mã ngành: 60480201 GVHD HVTH MSHV Lớp : TS Lê Thị Ngọc Thơ : Hoàng Trần Gia Phúc : 2341861010 : 23SCT11 TP HCM, tháng 12/2021 LỜI CẢM ƠN Kính gửi cô TS Lê Thị Ngọc Thơ, Lời đầu tiên, xin gửi lời cảm ơn chân thành tới cô, người dành thời gian công sức quý báu để giảng dạy hướng dẫn môn Xử lý ngôn ngữ tự nhiên Sự am hiểu sâu rộng phương pháp giảng dạy khoa học cô giúp hiểu rõ khái niệm thuật tốn lĩnh vực xử lý ngơn ngữ tự nhiên Những kiến thức kỹ mà học hướng dẫn cô không tảng quan trọng cho môn học này, mà hành trang giá trị cho nghiệp học tập nghiên cứu tương lai Tôi đặc biệt biết ơn cô dành thời gian quý báu để giải đáp thắc mắc tơi cách tận tình chu đáo Những lời khun, góp ý giúp tơi hiểu rõ vấn đề lý thuyết thực hành môn học, đồng thời giúp vượt qua khó khăn q trình học tập nghiên cứu Nhờ hướng dẫn tận tình cơ, tơi hồn thành mơn học cách xuất sắc Tôi hy vọng tương lai, tơi có hội tiếp tục học hỏi trau dồi kiến thức từ cô Một lần nữa, xin gửi lời cảm ơn chân thành tới cô Trân trọng biết ơn! TP.HCM, ngày 15 tháng 12 năm 2023 Hoàng Trần Gia Phúc NHẬN XÉT CỦA NGƯỜI HƯỚNG DẪN TP.HCM, ngày tháng năm 2023 Giảng viên hướng dẫn MỤC LỤC CHƯƠNG 1: TỔNG QUAN BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Tổng quan tóm tắt văn 1.1.1 Khái niệm 1.1.2 Hướng tiếp cận phương pháp 1.1.3 Các ứng dụng sử dụng doanh nghiệp dựa vào hình thức tóm tắt văn CHƯƠNG 2: TÓM TẮT VĂN BẢN BẰNG CÁCH XẾP HẠNG TRÊN ĐỒ THỊ VỚI THUẬT TOÁN TEXTRANK 2.1 Tìm hiểu TextRank 2.1.1 Khái niệm 2.1.2 Mơ hình TextRank 2.1.3 Sử dụng TextRank rút trích từ khóa CHƯƠNG 3: KẾT LUẬN 10 4.1 Kết sau chạy thực nghiệm 10 Tài liệu tham khảo: 11 CHƯƠNG 1: TỔNG QUAN BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Tổng quan tóm tắt văn 1.1.1 Khái niệm Tóm tắt văn q trình thu thập thơng tin cốt lõi từ văn để tạo phiên ngắn gọn, súc tích, đảm bảo nội dung văn gốc Bản tóm tắt cần có tính xác ngữ pháp tả, đồng thời giữ ý nghĩa tồn văn gốc Ngồi ra, tóm tắt cần có bố cục chặt chẽ, phù hợp với phong cách viết cú pháp văn gốc Kỹ thuật tóm tắt phân loại thành hai loại dựa số lượng văn cần tóm tắt: • Tóm tắt đơn văn q trình rút gọn văn thành phiên ngắn gọn • Tóm tắt đa văn q trình rút gọn tập hợp văn thành phiên ngắn gọn • Tóm tắt đơn văn kỹ thuật tóm tắt đơn giản, cần tập trung vào việc lựa chọn xếp thông tin quan trọng văn • Tóm tắt đa văn kỹ thuật tóm tắt phức tạp hơn, địi hỏi phải có khả phân tích mối quan hệ văn tập hợp 1.1.2 Hướng tiếp cận phương pháp Xét phương pháp thực hiện, tóm tắt văn có hai hướng tiếp cận tóm tắt theo kiểu trích chọn (extraction) tóm tắt theo kiểu tóm lược ý (abstraction) ➢ Tóm tắt theo kiểu trích chọn (Extractive summarization) Tóm tắt theo kiểu trích chọn phương pháp chọn tập từ có, lời nói câu văn gốc để đưa vào khn mẫu tóm tắt Phương pháp có ưu điểm đơn giản, dễ thực đạt chất lượng tóm tắt cao khn mẫu tóm tắt thiết kế tốt Tuy nhiên, phương pháp có nhược điểm dẫn đến tóm tắt khơng đầy đủ khơng xác khn mẫu tóm tắt khơng phù hợp với nội dung văn gốc ➢ Tóm tắt theo kiểu tóm lược ý (Abstract summarization) Tóm tắt theo kiểu tóm lược ý phương pháp xây dựng biểu diễn ngữ nghĩa bên sau sử dụng kỹ thuật xử lý ngơn ngữ để tạo tóm tắt gần gũi so với người tạo Bản tóm tắt chứa từ khơng có gốc Phương pháp có ưu điểm tạo tóm tắt đầy đủ xác so với phương pháp trích chọn Tuy nhiên, phương pháp có nhược điểm phức tạp khó thực phương pháp trích chọn ➢ So sánh hai phương pháp Tóm tắt theo kiểu trích chọn tóm tắt theo kiểu tóm lược ý có ưu nhược điểm khác Phương pháp trích chọn đơn giản, dễ thực dẫn đến tóm tắt khơng đầy đủ khơng xác Phương pháp tóm lược ý phức tạp, khó thực tạo tóm tắt đầy đủ xác ➢ Cách lựa chọn phương pháp tóm tắt Cách lựa chọn phương pháp tóm tắt phụ thuộc vào nhiều yếu tố, bao gồm: • Nội dung văn gốc: Nếu văn gốc có nội dung đơn giản, rõ ràng sử dụng phương pháp trích chọn Nếu văn gốc có nội dung phức tạp, khó hiểu nên sử dụng phương pháp tóm lược ý • Yêu cầu chất lượng tóm tắt: Nếu yêu cầu chất lượng tóm tắt cao nên sử dụng phương pháp tóm lược ý Nếu yêu cầu chất lượng tóm tắt khơng cao sử dụng phương pháp trích chọn • Kỹ nguồn lực có: Nếu có kỹ nguồn lực tốt sử dụng phương pháp tóm lược ý Nếu kỹ nguồn lực khơng tốt nên sử dụng phương pháp trích chọn 1.1.3 Các ứng dụng sử dụng doanh nghiệp dựa vào hình thức tóm tắt văn • Giám sát truyền thơng (Media monitoring): Vấn đề tải thông tin “sốc nội dung” thảo luận rộng rãi Tự động tóm tắt tạo hội để đọng dịng thơng tin liên tục thành phần thơng tin nhỏ • Bản tin (Newsletters): Nhiều tin hàng tuần có hình thức giới thiệu sau tuyển tập báo có liên quan Tóm tắt cho phép tổ chức làm phong phú thêm tin với dòng tóm tắt (so với danh sách liên kết), định dạng đặc biệt thuận tiện thiết bị di động • Tiếp thị tìm kiếm SEO (Search marketing and SEO): Khi đánh giá truy vấn tìm kiếm cho SEO, điều quan trọng phải hiểu tồn diện đối thủ cạnh tranh bạn nói nội dung họ Điều trở nên đặc biệt quan trọng kể từ Google cập nhật thuật tốn chuyển trọng tâm sang thẩm quyền chuyên đề (thay từ khóa) Tóm tắt nhiều tài liệu cơng cụ mạnh mẽ để nhanh chóng phân tích hàng chục kết tìm kiếm, hiểu chủ đề chia sẻ đọc lướt điểm quan trọng • Quy trình làm việc tài liệu nội (Internal document workflow): Các công ty lớn liên tục sản xuất kiến thức nội bộ, kiến thức thường lưu trữ sử dụng sở liệu dạng liệu phi cấu trúc Các công ty nên nắm lấy công cụ cho phép họ sử dụng lại kiến thức có Tóm tắt cho phép nhà phân tích nhanh chóng hiểu thứ mà công ty thực chủ đề định nhanh chóng tập hợp báo cáo kết hợp quan điểm khác • Nghiên cứu tài (Financial research): Các cơng ty ngân hàng đầu tư chi lượng lớn tiền để thu thập thông tin nhằm thúc đẩy việc định họ, bao gồm giao dịch chứng khoán tự động Khi bạn nhà phân tích tài xem báo cáo thị trường tin tức hàng ngày, chắn bạn gặp phải tường khơng thể đọc thứ Hệ thống tóm tắt phù hợp với tài liệu tài báo cáo thu nhập tin tức tài giúp nhà phân tích nhanh chóng thu tín hiệu thị trường từ nội dung • Phân tích hợp đồng pháp lý (Legal contract analysis): Liên quan đến điểm (quy trình cơng việc tài liệu nội bộ), hệ thống tóm tắt cụ thể phát triển để phân tích văn pháp luật Trong trường hợp này, trình tóm tắt tăng thêm giá trị cách đọng hợp đồng vào điều khoản rủi ro giúp bạn so sánh thỏa thuận • Tiếp thị truyền thông xã hội (Social media marketing): Các công ty sản xuất nội dung dạng dài, sách trắng, sách điện tử blog, tận dụng tóm tắt để chia nhỏ nội dung làm cho chia sẻ trang mạng xã hội Twitter Facebook Điều cho phép công ty tiếp tục sử dụng lại nội dung có • Trả lời câu hỏi bot (Question answering and bots): Trợ lý cá nhân tiếp quản nơi làm việc nhà thông minh Tuy nhiên, hầu hết trợ lý hạn chế nhiệm vụ cụ thể Tóm tắt quy mơ lớn trở thành kỹ thuật trả lời câu hỏi mạnh mẽ Bằng cách thu thập tài liệu phù hợp cho câu hỏi cụ thể, người tóm tắt tập hợp câu trả lời gắn kết dạng tóm tắt nhiều tài liệu • Kịch video (Video scripting): Video trở thành phương tiện tiếp thị quan trọng Bên cạnh tảng tập trung vào video YouTube hay Vimeo, người chia sẻ video mạng chuyên nghiệp LinkedIn Tùy thuộc vào loại video, cần nhiều tập lệnh Tóm tắt trở thành đồng minh tìm cách sản xuất kịch kết hợp nghiên cứu từ nhiều nguồn • Các trường hợp y tế (Medical cases): Với phát triển y tế từ xa, nhu cầu ngày tăng để quản lý trường hợp y tế tốt hơn, kỹ thuật số hóa hồn tồn Khi mạng lưới y tế từ xa hứa hẹn hệ thống chăm sóc sức khỏe cởi mở dễ tiếp cận hơn, cơng nghệ phải làm cho quy trình mở rộng Tóm tắt thành phần quan trọng chuỗi cung ứng sức khỏe từ xa cần phân tích trường hợp y tế chuyển trường hợp đến chuyên gia y tế thích hợp • Sách tài liệu (Books and literature): Google cho làm việc dự án cố gắng hiểu tiểu thuyết Tóm tắt giúp người tiêu dùng nhanh chóng hiểu sách nói điều trình mua hàng họ • Quá tải email (Email overload): Các công ty Slack sinh để giúp tránh xa việc gửi email liên tục Tóm tắt hiển thị nội dung quan trọng email cho phép chúng tơi đọc lướt email nhanh • E-learning phân công lớp ngữ nghĩa (E-learning and class assignments): Nhiều giáo viên sử dụng nghiên cứu điển hình tin tức để làm khung giảng họ Tóm tắt giúp giáo viên cập nhật nhanh nội dung họ cách tạo báo cáo tóm tắt chủ đề họ quan tâm • Khoa học R&D (Science and R&D): Các báo học thuật thường bao gồm tóm tắt người tạo đóng vai trị tóm tắt Tuy nhiên, bạn giao nhiệm vụ theo dõi xu hướng đổi lĩnh vực định, việc đọc phần tóm tắt trở nên tải Các hệ thống nhóm giấy tờ nén thêm tóm tắt trở nên hữu ích cho nhiệm vụ • Nghiên cứu sáng chế (Patent research): Nghiên cứu sáng chế trình tẻ nhạt Cho dù bạn thực nghiên cứu thông tin thị trường hay tìm cách nộp sáng chế mới, trình tóm tắt để trích xuất tun bố bật sáng chế cơng cụ tiết kiệm thời gian • Các họp hội nghị truyền hình (Meetings and video-conferencing): Với phát triển làm việc từ xa, khả nắm bắt ý tưởng nội dung từ trò chuyện ngày cần thiết Một hệ thống chuyển giọng nói thành văn tạo tóm tắt từ họp nhóm bạn thật tuyệt vời • Bộ phận trợ giúp hỗ trợ khách hàng (Help desk and customer support): Cơ sở kiến thức có từ lâu chúng quan trọng tảng SAAS để cung cấp hỗ trợ khách hàng quy mô lớn Tuy nhiên, đơi người dùng cảm thấy q tải duyệt qua tài liệu trợ giúp Việc tóm tắt nhiều tài liệu cung cấp điểm từ báo trợ giúp cung cấp cho người dùng hiểu biết đầy đủ vấn đề khơng? • Giúp đỡ người tàn tật (Helping disabled people): Khi cơng nghệ chuyển giọng nói thành văn tiếp tục cải thiện, người khuyết tật thính giác hưởng lợi từ việc tóm tắt để cập nhật nội dung cách hiệu • Ngơn ngữ lập trình (Programming language): Đã có nhiều nỗ lực để xây dựng cơng nghệ AI tự viết mã xây dựng trang web Có khả "trình tóm tắt mã" tùy chỉnh xuất để giúp nhà phát triển có tranh tồn cảnh dự án • Tạo nội dung tự động (Automated content creation): "Người viết rơ-bốt thay cơng việc tơi chứ?" Đó điều mà nhà văn ngày tự hỏi thân Nếu trí tuệ nhân tạo thay giai đoạn trình tạo nội dung, tính tóm tắt tự động đóng vai trị quan trọng Liên quan đến điểm (các ứng dụng tiếp thị tìm kiếm SEO), viết blog tốt thường cách tóm tắt nguồn có cho truy vấn định Cơng nghệ tóm tắt đạt đến điểm mà soạn báo hồn tồn ngun từ việc tóm tắt kết tìm kiếm có liên quan CHƯƠNG 2: TÓM TẮT VĂN BẢN BẰNG CÁCH XẾP HẠNG TRÊN ĐỒ THỊ VỚI THUẬT TỐN TEXTRANK 2.1 Tìm hiểu TextRank 2.1.1 Khái niệm TextRank kỹ thuật tóm tắt văn theo phương pháp trích chọn học máy học khơng giám sát (Unsupervised Learning) TextRank không dựa liệu đào tạo trước hoạt động với đoạn văn tùy ý TextRank hoạt động dựa ý tưởng từ cụm từ có liên quan chặt chẽ với đoạn văn có xu hướng xuất Phương pháp sử dụng thuật toán tương tự PageRank để tính tốn độ quan trọng từ cụm từ đoạn văn Cụ thể, TextRank thực bước sau: Tách đoạn văn thành từ cụm từ Tính tốn độ liên kết từ cụm từ dựa tần suất xuất chúng đoạn văn Sử dụng thuật tốn PageRank để tính tốn độ quan trọng từ cụm từ Các từ cụm từ có độ quan trọng cao chọn làm tóm tắt đoạn văn Từ khóa từ hay cụm từ dùng để mơ tả cách xác, ngắn gọn nội dung tài liệu (văn bản, hay trang web) Trong tiếng Anh, từ khóa thể nhiều thuật ngữ khác như: keywords, term, query term, hay tags; ý nghĩa chúng giống Từ khóa có nhiều ứng dụng xử lý ngơn ngữ tự nhiên, chẳng hạn như: • Tìm kiếm thơng tin: Từ khóa sử dụng để xây dựng truy vấn tìm kiếm • Tóm tắt văn bản: Từ khóa sử dụng để xác định nội dung tài liệu • Phân loại văn bản: Từ khóa sử dụng để phân loại văn theo chủ đề • Tạo văn bản: Từ khóa sử dụng để tạo văn Về bước tiến trình trích rút thơng tin sau: ➢ Tiền xử lý: • Nhận biết định dạng tài liệu( Format detection) • Tách từ ( Tokenization) • Phân đoạn từ( Word segmentation) • Giải nhập nhằng ngữ nghĩa( Sense disambiguation) • Tách câu( Sentence splitting) • Gán nhãn từ loại( POS tagging) ➢ Trích xuất thơng tin: • Xác định thực thể quan trọng tài liệu • Xác định mối quan hệ thực thể • Trích xuất thơng tin cần thiết từ tài liệu ➢ Xử lý ngơn ngữ tự nhiên: • Phân tích câu • Phân tích ngữ nghĩa • Phân tích cú pháp Phương pháp bao gồm việc xác định số đơn vị văn dựa văn ngôn ngữ tự nhiên, kết hợp nhiều đơn vị văn với nhiều nút biểu đồ, xác định mối quan hệ kết nối hai số nhiều đơn vị văn Phương pháp bao gồm liên kết mối quan hệ kết nối với cạnh biểu đồ kết nối hai số nhiều nút biểu đồ xác định nhiều thứ hạng liên quan đến nhiều nút biểu đồ dựa cạnh biểu đồ Phương pháp sử dụng để trích xuất thơng tin từ văn ngơn ngữ tự nhiên Phương pháp hoạt động cách xác định đơn vị văn quan trọng văn xác định mối quan hệ đơn vị văn Các mối quan hệ sử dụng để xác định thực thể quan trọng tài liệu mối quan hệ thực thể Ví dụ, phương pháp sử dụng để trích xuất thơng tin sau từ văn bản: • Tên thực thể • Mơ tả thực thể • Các mối quan hệ thực thể Phương pháp sử dụng nhiều ứng dụng, chẳng hạn như: • Tìm kiếm thơng tin • Phân tích tài liệu • Hệ thống trợ lý thơng minh Kết luận: TextRank kỹ thuật tóm tắt văn hiệu sử dụng với đoạn văn Từ khóa khái niệm quan trọng xử lý ngôn ngữ tự nhiên có nhiều ứng dụng Trích xuất thơng tin trình phức tạp bao gồm nhiều bước Phương pháp xác định đơn vị văn bản, mối quan hệ 2.1.2 Mơ hình TextRank Ý tưởng thuật tốn TextRank dựa hai yếu tố: bỏ phiếu đề cử Bỏ phiếu: Khi đỉnh liên kết với đỉnh thứ hai, ví dụ thơng qua mối quan hệ kết nối cạnh biểu đồ Mỗi liên kết đến đỉnh xét phiếu bầu Đề cử: Khi đỉnh có trọng số cao đề cử cho đỉnh khác có trọng số thấp hơn, đỉnh coi quan trọng đóng góp cho nội dung đỉnh khác Trọng số đỉnh u (đỉnh) tính sau: Trong đó: d nhân tố giảm, có giá trị từ đến Nó xác suất mà đỉnh có liên kết đến đỉnh đồ thị Đối với trang web d xác suất người dùng nhấn vào liên kết xác suất để người dùng vào trang web hoàn toàn - d |v| số lượng đỉnh liên kết đến đỉnh v Theo PageRank d = 0.85 Đây xác suất sử dụng TextRank Lần đầu chạy, trọng số gắn cho đỉnh Ví dụ: Ta có đồ thị G = (V, E) đồ thị vơ hướng Trong đó: V: tập đỉnh {S1, S2, S3, S4, S5, S6}: E: tập cạnh đồ thị, Ta có: S1 S2 S3 S4 S5 S6 S1 1 1 S2 0 1 0 S3 0 0 S4 0 0 S5 0 0 S6 0 0 0 S1 nối với đỉnh S2, S3, S4, S5 nên trọng số bằng: u = S1: PageRank(S1) = 0,025 + 0,85 (1/4 + 1/3 + 1/4 + 1/3) = 1,017 Tương tự ta có trọng số đỉnh khác sau: u = S2: PageRank(S2) = 0,025 + 0,85 (1/4 + 1/4 + 1/3 + 1/3) = 1,017 u = S3: PageRank(S3) = 0,025 + 0,85 (1/4 + 1/4 + 1/4) = 0,6625 u = S4: PageRank(S4) = 0,025 + 0,85 (1/4 + 1/4 + 1/3 + 1/2) = 1,1583 u = S5: PageRank(S5) = 0,025 + 0,85 (1/4 + 1/4 + 1/2) = 0,875 u = S6: PageRank(S5) = 0,025 + 0,85 (1/3 + 1/4 + 1/2) = 0,9458 Lần chạy đầu tiên, trọng số gắn cho đỉnh Ban đầu gán cho tất đỉnh đồ thị giá trị khởi tạo tính toán lặp lại kết hội tụ lại đạt ngưỡng xác định Sau q trình tính tốn trọng số đỉnh mức độ quan trọng đỉnh tồn đồ thị Kết luận: Ý tưởng thuật toán TextRank dựa hai yếu tố: bỏ phiếu đề cử Trọng số đỉnh u (đỉnh) tính sau: PageRank(u) = (1 - d) + d * sum(PageRank(v) / |v|) Trong đó: d nhân tố giảm, có giá trị từ đến |v| số lượng đỉnh 2.1.3 Sử dụng TextRank rút trích từ khóa Năm 2003, Hulth dùng hệ thống học máy giám sát để trích xuất từ khố kết hợp đặc trưng từ vựng cú pháp Mục đích việc trích xuất từ khố tự động tìm cụm từ mơ tả văn tốt Rút trích từ khóa chuỗi nhiều từ vựng rút từ văn Quan hệ nằm đơn vị từ vựng hữu ích cho việc đánh giá thêm vào cạnh đồ thị CHƯƠNG 3: KẾT LUẬN 4.1 Kết sau chạy thực nghiệm Kết sau chạy thực nghiệm số tài liệu văn cho thấy TextRank rút trích từ khóa xác đầy đủ Cụ thể, TextRank rút trích từ khóa xác với độ xác cao, đồng thời rút trích nhiều từ khóa so với phương pháp khác Ví dụ, chạy thực nghiệm văn "Tóm tắt văn trình thu gọn văn dài thành văn ngắn hơn, giữ nội dung văn gốc Tóm tắt văn có nhiều ứng dụng thực tế, chẳng hạn tìm kiếm thơng tin, phân tích tài liệu, tạo văn tự động.", TextRank rút trích từ khóa sau: • Tóm tắt văn • Thu gọn nội dung • Tìm kiếm thơng tin • Phân tích tài liệu • Tạo văn tự động Các từ khóa từ khóa văn gốc, thể nội dung văn ❖ Ưu điểm TextRank ➢ Thời gian rút trích nhanh: TextRank sử dụng thuật tốn PageRank, thuật toán đơn giản hiệu Do đó, TextRank rút trích từ khóa nhanh chóng, phù hợp với ứng dụng thực tế đòi hỏi thời gian xử lý nhanh ➢ Cài đặt dễ dàng: TextRank thuật tốn đơn giản, dễ dàng cài đặt sử dụng ❖ Hạn chế TextRank ➢ Độ xác phụ thuộc vào tham số: Kết rút trích từ khóa TextRank phụ thuộc vào tham số thuật tốn Do đó, cần phải điều chỉnh tham số cho phù hợp với loại văn ➢ Khơng thể rút trích từ khóa theo ngữ cảnh: TextRank rút trích từ khóa dựa tần suất xuất từ văn Do đó, TextRank khơng thể rút trích từ khóa theo ngữ cảnh ❖ Kết luận ➢ TextRank phương pháp rút trích từ khóa hiệu quả, sử dụng nhiều ứng dụng thực tế Tuy nhiên, cần lưu ý hạn chế TextRank để sử dụng phương pháp cách hiệu 10 Tài liệu tham khảo: ➢ http://lib.uet.vnu.edu.vn/bitstream/123456789/956/3/Tomtat.pdf ➢ http://www.cs.toronto.edu/~jcheung/papers/honours-thesis.pdf ➢ https://online.stat.psu.edu/stat508/lesson/1a/1a.5 ➢ http://www.cs.columbia.edu/nlp/papers/1999/kan_mckeown_99.pdf ➢ https://www.frase.io/blog/20-applications-of-automatic-summarization-in-theenterprise/ 11