Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
1,57 MB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN -o0o - BÁO CÁO MƠN NGƠN NGỮ LẬP TRÌNH HIỆN ĐẠI TÊN ĐỀ TÀI: TÌM HIỂU THƯ VIỆN SPACY NHĨM: TP HCM, tháng năm 2022 BỘ CƠNG THƯƠNG TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THỰC PHẨM TP.HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN -o0o - BÁO CÁO MƠN NGƠN NGỮ LẬP TRÌNH HIỆN ĐẠI ĐỀ TÀI: TÌM HIỂU THƯ VIỆN SPACY Nhóm: Giảng viên hướng dẫn Thành viên nhóm: Dương Thị Mộng Thùy Võ Anh Tuân – 2001200211 Cao Quốc Thịnh – 2001200308 TPHCM,ngày tháng năm 2023 NHẬN XÉT CỦA GIẢNG VIÊN ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ……………………………………………… Điểm: Tp HCM, ngày tháng năm 2023 GVHD: Dương Thị Mộng Thùy MỤC LỤC LỜI CẢM ƠN PHẦN MỞ ĐẦU I GIỚI THIỆU SPACY II CÀI ĐẶT .8 III CÁC ĐẶC TRƯNG Hình 3.1: Tokenization Hình 3.2: Stop Words Hình 3.3: Part-of-speech (POS) Tagging .10 Hình 3.4: Dependency Parsing .10 Hình 3.5: Lemmatization 11 Hình 3.6 :Sentence Boundary Detection (SBD) 11 Hình 3.7 Named Entity Recognition (NER) 11 BẢNG PHÂN CÔNG CÔNG VIỆC CHO CÁC THÀNH VIÊN 12 LỜI CẢM ƠN Để hoàn thành phần đồ án mơn Ngơn ngữ lập trình đại này, nhóm chúng em xin gửi lời cảm ơn chân thành đến giảng viên môn – Cô Dương Thị Mộng Thùy giảng dạy tận tình, hướng dẫn chi tiết để em có đủ kiến thức vận dụng chúng vào báo cáo Do nhóm chúng em chưa có nhiều kinh nghiệm làm đề tài hạn chế kiến thức, nên phần đồ án nên có thiếu sót Nhóm chúng em mong nhận ý kiến, nhận xét phê bình từ phía Lời cuối chúng em xin chân thành cảm ơn ! PHẦN MỞ ĐẦU Spacy thư viện xử lý ngôn ngữ tự nhiên viết Python Được phát triển Matthew Honnibal phát hành vào năm 2015, Spacy cung cấp cho người dùng công cụ để xử lý văn bản, bao gồm chức phân tích cú pháp, tách từ, định danh thực thể dự đốn ngơn ngữ tự nhiên Nó nhanh chóng ưa chuộng cộng đồng xử lý ngôn ngữ tự nhiên chạy nhanh, xác tối ưu hóa cho kích thước liệu lớn Bên cạnh đó, Spacy cung cấp nhiều tính hữu ích sử dụng ứng dụng khác phân loại văn bản, tóm tắt văn đánh giá cảm xúc Trong đề tài này, tìm hiểu cách Spacy hoạt động tính Bạn hướng dẫn cách cài đặt Spacy, sử dụng công cụ văn học cách xử lý văn Spacy Recommandé pour toi Suite du document ci-dessous 84 Tariffabcabca shf Kinh te doi ngoai 10 B Sunda - isi banyak Mass Transfer Aucun Chapter - LITERATURE Business Administration Aucun Aucun Unit Reading - tai lieu - Por Que Mentimos?: Las Raices del Engano y el Inconsciente = Why We Lie? nhập môn công nghệ thông tin Aucun I GIỚI THIỆU SPACY SPACY gì? Spacy thư viện xử lý ngơn ngữ tự nhiên (NLP) mã nguồn mở viết ngôn ngữ Python Thư viện Spacy cung cấp cho người dùng công cụ để xử lý văn bản, bao gồm chức phân tích cú pháp, tách từ, định danh thực thể dự đốn ngơn ngữ tự nhiên Spacy nhanh chóng ưa chuộng cộng đồng xử lý ngơn ngữ tự nhiên chạy nhanh, xác tối ưu hóa cho kích thước liệu lớn Đồng thời, Spacy cung cấp nhiều tính hữu ích sử dụng ứng dụng khác phân loại văn bản, tóm tắt văn đánh giá cảm xúc Ngoài ra, Spacy sử dụng rộng rãi lĩnh vực chatbot, xử lý liệu người dùng phân tích văn Internet Spacy thư viện NLP khuyến khích sử dụng cộng đồng xử lý ngôn ngữ tự nhiên II CÀI ĐẶT Để sử dụng Spacy, bạn cần cài đặt máy tính cách sử dụng pip, cơng cụ quản lý gói Python Bạn cài đặt phiên lệnh sau: pip install spacy Nếu lần bạn sử dụng Spacy, bạn cần tải ngôn ngữ mà bạn muốn sử dụng Spacy hỗ trợ nhiều ngơn ngữ khác nhau, ví dụ: tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Pháp, v.v Bạn tải gói ngơn ngữ lệnh sau: python -m spacy download en_core_web_sm Trong đó, “en_core_web_sm” gói ngơn ngữ cho tiếng Anh Sau tải về, sau cài đặt sử dụng gói ngơn ngữ chương trình Python cách import vào thư viện Link:https://spacy.io/usage Sau tải xuống, bạn sử dụng Spacy để xử lý văn cách sử dụng đối tượng tách sau: - Câu: Spacy tách văn thành câu cách sử dụng đối tượng sentencizer Để tạo đối tượng sentencizer, bạn sử dụng phương thức create_pipe truyền vào chuỗi sentencizer - Từ: Spacy tách văn thành từ cách sử dụng đối tượng tokenizer Để tạo đối tượng tokenizer, bạn sử dụng thuộc tính tokenizer đối tượng nlp III CÁC ĐẶC TRƯNG Ngoài ra, Spacy cung cấp nhiều đặc trưng khác để xử lý văn bản, bao gồm: Tokenization: Tách văn thành từ đơn lẻ Hình 3.1: Tokenization Stop Words: Lọc từ khơng mang nhiều ý nghĩa, ví dụ "the", "is", "and" Hình 3.2: Stop Words Part-of-speech (POS) Tagging: Phân loại từ câu thành nhóm loại từ khác nhau, ví dụ danh từ, động từ, tính từ, trạng từ Hình 3.3: Part-of-speech (POS) Tagging Dependency Parsing: Phân tích cú pháp câu để hiểu cấu trúc câu mối quan hệ từ câu Hình 3.4: Dependency Parsing 10 Lemmatization: Chuyển đổi từ dạng sở (lemmas) để giúp đồng liệu giảm thiểu trùng lặp trình xử lý Hình 3.5: Lemmatization Sentence Boundary Detection (SBD): Phát tách câu văn Hình 3.6 :Sentence Boundary Detection (SBD) Named Entity Recognition (NER): Nhận dạng thực thể văn tên người, địa điểm, tổ chức, để giúp hiểu nội dung văn Hình 3.7 Named Entity Recognition (NER) 11 Entity Linking (EL): Liên kết thực thể nhận dạng văn với sở liệu để cung cấp thêm thơng tin thực thể Similarity: Tính tốn độ tương đồng văn bản, từ câu Text Classification: Phân loại văn vào danh mục khác dựa nội dung chúng Rule-based Matching: Tìm kiếm chuỗi ký tự văn để tìm kiếm mẫu định nghĩa trước Training: Đào tạo mơ hình xử lý ngôn ngữ tự nhiên để thực tác vụ cụ thể Serialization: Lưu trữ mơ hình đào tạo để sử dụng lại sau BẢNG PHÂN CƠNG CƠNG VIỆC CHO CÁC THÀNH VIÊN NHĨM STT MSSV HỌ TÊN CÔNG VIỆC ĐƯỢC GIAO ĐÁNH GIÁ 2001200308 Cao Quốc Thịnh Powerpoint,Kiế m Tài Liệu 100% 2001200211 Võ Anh Tuân Word,Demo 100% 12