1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN DỰA TRÊN THUẬT TOÁN SUPPORT VECTOR MACHINE

29 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 365,65 KB

Nội dung

Trong thời đại số hóa hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, lượng thông tin và dữ liệu được tạo ra trên các nền tảng số tăng đáng kể. Tuy nhiên, đồng với sự tăng trưởng này, cũng xuất hiện nhiều thông tin không đáng tin cậy hoặc có nội dung xấu được lan truyền và trộn lẫn với các thông tin chính thống. Điều này tạo ra một thách thức lớn cho người dùng trong việc sử dụng thông tin và đặt ra yêu cầu cấp thiết về việc phân loại thông tin một cách tự động. Việc tự động hóa việc phân loại thông tin giúp giải quyết vấn đề trên bằng cách áp dụng các kỹ thuật và công nghệ để tự động nhận diện, phân loại và xử lý thông tin. Thay vì phải dành nhiều thời gian và công sức để kiểm tra và xác định tính chính xác của từng thông tin, hệ thống phân loại tự động có thể tự động phân loại các thông tin vào các nhóm, chủ đề hoặc mức độ tin cậy khác nhau.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN -*** - BÁO CÁO THỰC TẬP CƠ SỞ NGÀNH Mã lớp: 20222IT6046001 XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN DỰA TRÊN THUẬT TỐN SUPPORT VECTOR MACHINE GVHD: THS Lê Như Hiền Nhóm thực hiện: Nhóm NGUYỄN HẢI ĐĂNG 2021602703 LỚP: 2021DHKHMT01 – KHÓA: 16 TẠ ĐĂNG KHOA 2021602992 LỚP: 2021DHKHMT01 – KHÓA: 16 VÕ TRUNG HIẾU 2021603327 LỚP: 2021DHKHMT01 – KHÓA: 16 NGUYỄN DUY THÁI 2021600430 LỚP: 2021DHKHMT01 – KHÓA: 16 ĐỖ XN ĐƠNG 2021604181 LỚP: 2021DHKHMT01 – KHĨA: 16 HÀ NỘI, NĂM 2023 LỜI CẢM ƠN Trước tiên với tình cảm sâu sắc chân thành nhất, cho phép nhóm em bày tỏ lịng biết ơn đến tất thầy cô nhà trường tạo điều kiện hỗ trợ, giúp đỡ em suốt trình học tập nghiên cứu đề tài Trong suốt thời gian từ bắt đầu môn học kết thúc môn, em nhận nhiều quan tâm, giúp đỡ quý Thầy Cô bạn bè Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Công Nghệ Thông Tin – Trường Đại học Công Nghiệp Hà Nội truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian diễn môn học Nhờ có lời hướng dẫn, dạy bảo thầy nên đề tài nghiên cứu em hoàn thiện tốt đẹp Đặc biệt, em xin gửi đến Lê Như Hiền– người tận tình hướng dẫn, giúp đỡ nhóm chúng em hồn thành báo cáo lời cảm ơn sâu sắc Bài báo cáo thực tập thực khoảng thời gian tháng Kiến thức chúng em hạn chế nên khơng tránh khỏi thiếu sót, em mong nhận ý kiến đóng góp quý báu quý Thầy Cô bạn để kiến thức em lĩnh vực hoàn thiện đồng thời có điều kiện bổ sung, nâng cao ý thức Nhóm chúng em xin chân thành cảm ơn! Nhóm thực đề tài MỤC LỤC LỜI CẢM ƠN DANH MỤC HÌNH ẢNH MỞ ĐẦU Lý chọn đề tài Mục đích nghiên cứu Đối tượng nghiên cứu Nhiệm vụ nghiên cứu Giới hạn phạm vi nghiên cứu Phương pháp nghiên cứu .7 CHƯƠNG CƠ SỞ LÝ THUYẾT Một số hệ thống phân loại 1.1 Phân loại email Google Mail 1.2 Phân loại tin nhắn rác iOS 16.2 Hình Tính phân loại tin nhắn rác Iphone Giới thiệu TF-IDF 10 Thư viện Scikit-learn (Sklearn) 11 Thuật toán Support Vector Machine 11 Công cụ thiết kế 13 CHƯƠNG KHẢO SÁT HỆ THỐNG 14 Khảo sát hệ thống thư viện trực tuyến ĐHCNHN .14 1.1 Cơ cấu tổ chức thư viện trực tuyến 15 1.2 Hoạt động hệ thống thư viện trực tuyến 16 Hạn chế 19 Đề xuất hướng giải 20 Ưu điểm nhược điểm hệ thống .21 CHƯƠNG PHÂN TÍCH HỆ THỐNG 22 Mơ hình hệ thống .22 Phân tích chi tiết 22 2.1 Thu thập liệu 22 2.2 Xử lý liệu 23 2.3 Tạo từ điển 23 2.4 Áp dụng phân loại 24 KẾT LUẬN 27 Kết nghiên cứu 27 Các khó khăn hạn chế 27 Hướng phát triển 27 TÀI LIỆU THAM KHẢO 29 DANH MỤC HÌNH ẢNH Hình Gmail - dịch vụ email miễn phí Hình Danh sách nhãn phân loại Gmail Hình Tính phân loại tin nhắn rác Iphone Hình Cơ cấu tổ chức thư viện trực tuyến ĐHCNHN 15 Hình Mơ hình tổng quan hệ thống 22 MỞ ĐẦU Lý chọn đề tài Trong thời đại số hóa nay, với phát triển mạnh mẽ công nghệ thông tin, lượng thông tin liệu tạo tảng số tăng đáng kể Tuy nhiên, đồng với tăng trưởng này, xuất nhiều thông tin không đáng tin cậy có nội dung xấu lan truyền trộn lẫn với thơng tin thống Điều tạo thách thức lớn cho người dùng việc sử dụng thông tin đặt yêu cầu cấp thiết việc phân loại thông tin cách tự động Việc tự động hóa việc phân loại thông tin giúp giải vấn đề cách áp dụng kỹ thuật công nghệ để tự động nhận diện, phân loại xử lý thông tin Thay phải dành nhiều thời gian cơng sức để kiểm tra xác định tính xác thơng tin, hệ thống phân loại tự động tự động phân loại thông tin vào nhóm, chủ đề mức độ tin cậy khác Do đó, nhóm chúng em lựa chọn việc xây dựng hệ thống phân loại văn để làm đề tài cho tập lớn Mục đích nghiên cứu Mục đích đề tài tìm hiểu triển khai xây dựng hệ thống, đánh giá tính khả thi hệ thống: Ưu điểm nhược điểm hệ thống phân loại Tìm giải vấn đề hạn chế quy trình hoạt động Đối tượng nghiên cứu Đối tượng nghiên cứu đề tài mơ hình phân loại văn thơng qua thuật tốn học máy Support Vector Machine Nhiệm vụ nghiên cứu Nhiệm vụ nghiên cứu đề tài: Khảo sát, nghiên cứu, tìm hiều chức năng, quy trình hoạt động, sở liệu, … hệ thống phân loại tài liệu Giới hạn phạm vi nghiên cứu Phạm vi nằm giới hạn học phần Thực tập sở ngành mục tiêu phục vụ hệ thống thư viện số trường Đại học Công nghiệp Hà Nội Hệ thống phân loại nhằm giải phần khó khăn tồn đọng Thời gian thực hiện: từ ngày 13/3 đến ngày 25/6 năm 2023 Phương pháp nghiên cứu Sử dụng số phương pháp: Nghiên cứu thực tế, thu thập nhu cầu mong muốn nhà quản lý người dùng việc tìm kiếm quản lý thơng tin, khó khăn mà nhà quản lý thường gặp phải việc quản lý thông thường, thu thập số cụ thể để dễ dàng tính tốn Từ nhu cầu số trên, đưa kế hoạch cụ thể, đưa tính cần thiết Bố cục Ngồi phần: Mở đầu, kết luận, tài liệu tham khảo, danh mục hình ảnh nội dung đề tài chủ yếu trình bày theo ba chương: - Chương 1: Cơ sở lý thuyết - Chương 2: Khảo sát tổng quát - Chương 3: Phân tích hệ thống CHƯƠNG CƠ SỞ LÝ THUYẾT Một số hệ thống phân loại Hiện có nhiều hệ thống phân loại tạo nhằm đáp ứng nhu cầu giải vấn liên quan đến thông tin văn Trong đề tài nhóm chúng em đề cập tới hệ thống phân loại bật 1.1 Phân loại email Google Mail Google Mail (Gmail) dịch vụ email hàng đầu sử dụng rộng rãi toàn giới Gmail sử dụng hệ thống phân loại email spam tiên tiến để tự động lọc đưa email rác vào thư mục "Spam" mà khơng gửi đến hộp thư đến Hình Gmail - dịch vụ email miễn phí Hệ thống phân loại email spam Gmail sử dụng phương pháp kết hợp nhiều thuật toán quy tắc để xác định xem email có phải spam hay khơng Dưới số yếu tố mà Gmail sử dụng để phân loại email spam: Đánh giá từ khóa: Gmail phân tích nội dung email so khớp với từ khóa phổ biến email spam Phân tích địa email: Gmail kiểm tra địa email nguồn thông tin liên quan khác để xác định xem email spam hay không Danh sách đen danh sách trắng: Gmail trì danh sách đen (blacklist) danh sách trắng (whitelist) địa email xác định spam spam Các địa email có danh sách đen có xu hướng xem spam, địa email có danh sách trắng khơng phải spam Hình Danh sách nhãn phân loại Gmail Học máy: Gmail sử dụng thuật toán học máy để học từ mẫu email spam người dùng báo cáo từ đưa dự đốn xác suất email spam Hệ thống phân loại email spam Gmail hệ thống liên tục cập nhật cải tiến để phát lọc email rác cách hiệu Tuy nhiên, khơng phải lúc hệ thống hồn hảo xảy trường hợp email hợp lệ bị phân loại nhầm spam email spam tràn vào hộp thư đến 1.2 Phân loại tin nhắn rác iOS 16.2 Trên iOS 16, Apple có cập nhật tính lọc spam cho tin nhắn, giúp người dùng dễ dàng phân biệt tin nhắn dịch vụ, quảng cáo, tin nhắn rác, spam, …và dễ tiếp cận đến tin nhắn từ người thân, tin nhắn quan trọng Hình Tính phân loại tin nhắn rác Iphone Bộ phân loại chia tin nhắn thành phần khác gồm: - Người gửi biết (Known Senders), - Người gửi không xác định (Unknown Senders) - Tin rác (Junk Messages) Những tin nhắn bị nghi spam (rác) tự động chuyển vào Junk Messages lưu tạm đây, không thông báo để tránh làm phiền Sau khoảng thời gian cài sẵn, tin nhắn tự động bị xóa khỏi thiết bị Apple sử dụng thuật toán gọi "Machine Learning Classifier" để phân loại tin nhắn hệ điều hành iOS Đây hệ thống dựa máy học có khả tự động xác định phân loại tin nhắn dựa nội dung yếu tố khác Giới thiệu TF-IDF TF - term frequency Dùng để ước lượng tần suất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ chia độ dài văn (tổng số từ văn đó) TF (t, d) = (số lần từ t xuất văn d)/ (tổng số từ văn d) IDF - Inverse Document Frequency Dùng để ước lượng mức độ quan trọng từ Khi tính tần số xuất tf từ coi quan trọng Tuy nhiên có số từ thường được sử dụng nhiều không quan trọng để thể ý nghĩa đoạn văn, ví dụ: Từ nối: và, nhưng, nhiên, thế, vậy, … Giới từ: ở, trong, trên, … Từ định: ấy, đó, nhỉ, … 10 1.1 Cơ cấu tổ chức thư viện trực tuyến Trung tâm có tổng số cán viên chức 27, đó: - Giám đốc: Ths Đặng Quang Thạch - Phó Giám đốc: Ths Nguyễn Minh Tân - Phó Giám đốc: TS Ngơ Đức Vĩnh - 24 nhân viên làm việc sở Thư viện trực tuyến Đại học Công nghiệp Hà Nội tổ chức theo cấu sau: Hình Cơ cấu tổ chức thư viện trực tuyến ĐHCNHN - Ban quản lý: Ban quản lý thư viện Đại học Công nghiệp Hà Nội đóng vai trị quan trọng việc quản lý định hướng chung thư viện truyền thống thư viện trực tuyến Ban quản lý đứng đầu giám đốc: Ths Đặng Quang Thạch Chức ban quản lý xác định mục tiêu phát triển thư viện trực tuyến, đề sách quy trình hoạt động, đảm bảo hoạt động thư viện số tuân thủ quy định quy chuẩn - Bộ phận quản lý tài liệu: Bộ phận chịu trách nhiệm thu thập, quản lý cung cấp tài liệu thư viện trực tuyến Các thành viên phận bao gồm chuyên viên thư viện, nhân viên mua sắm tài liệu người quản lý sở liệu Cụ thể, phận quản lý tài liệu có nhiệm vụ thực hoạt động tìm kiếm lựa chọn tài liệu phù hợp, 15 mua sắm tạo ghi cho tài liệu, lưu trữ vào kho lưu trữ bảo quản tài liệu cách hiệu - Bộ phận công nghệ thông tin: Bộ phận có vai trị quan trọng việc phát triển, vận hành bảo mật hệ thống thư viện trực tuyến Bộ phận công nghệ thông tin bao gồm chuyên gia công nghệ thông tin, quản trị mạng hỗ trợ kỹ thuật Nhiệm vụ phận xây dựng phát triển hệ thống thư viện trực tuyến, đảm bảo hệ thống hoạt động cách ổn định an toàn, cung cấp hỗ trợ kỹ thuật cho người dùng gặp cố 1.2 Hoạt động hệ thống thư viện trực tuyến 1.2.1 Quản lý cung cấp tài liệu trực tuyến Thư viện trực tuyến có hệ thống quản lý tài liệu để lưu trữ cung cấp tài liệu số sách điện tử, báo, tạp chí nguồn tư liệu khác cho người dùng truy cập qua mạng: Thư viện trực tuyến có sở liệu để lưu trữ tài liệu số sách điện tử, báo, tạp chí nguồn tư liệu khác; cung cấp công cụ quản lý để thêm mới, cập nhật xóa tài liệu từ sở liệu Và cho phép người dùng truy cập đọc tài liệu từ xa 1.2.2 Cập nhật tài liệu trực tuyến Thu thập tài liệu mới: Các thủ thư theo dõi thu thập tài liệu sách điện tử, báo, tạp chí, tài liệu nghiên cứu nguồn tư liệu khác từ nguồn đáng tin cậy Xử lý tài liệu mới: Sau thu thập, thủ thư cần xử lý tài liệu để chuẩn bị cho việc đưa lên hệ thống Kiểm tra xác minh thông tin: Trước tài liệu công bố, thủ thư phải kiểm tra xác minh thơng tin để đảm bảo tính xác đáng tin cậy 16 Cập nhật sở liệu: Tài liệu cập nhật vào sở liệu thư viện trực tuyến Bao gồm việc thêm thông tin tài liệu, tạo mô tả tóm tắt, gắn thẻ từ khóa liên kết tài liệu tới danh mục chủ đề liên quan Đưa tài liệu lên hệ thống: Sau tài liệu kiểm tra xác minh, đưa lên hệ thống thư viện trực tuyến để người dùng truy cập sử dụng 1.2.3 Tìm kiếm tra cứu thơng tin Xử lý tìm kiếm thơng tin: Khi người dùng nhập thơng tin tìm kiếm, hệ thống thư viện trực tuyến phải xử lý u cầu tìm kiếm tìm kiếm thơng tin sở liệu tài liệu Hiển thị kết tìm kiếm: Kết tìm kiếm hiển thị cho người dùng thông qua giao diện với thông tin tiêu đề, tác giả, năm xuất liên kết để truy cập chi tiết tài liệu Tùy chọn tìm kiếm nâng cao: Thư viện trực tuyến cung cấp tùy chọn tìm kiếm nâng cao để người dùng xác hóa hạn chế kết tìm kiếm Sắp xếp lọc kết quả: Người dùng cho phép xếp lọc kết tìm kiếm theo tiêu chí thứ tự chữ cái, năm xuất bản, đánh giá mức độ phổ biến 1.2.4 Quản lý tài khoản người dùng Thư viện trực tuyến cung cấp hệ thống đăng ký tài khoản cho người dùng, cho phép họ tạo quản lý thông tin cá nhân, theo dõi lịch sử mượn sách tương tác với tính khác thư viện: Quản lý thơng tin cá nhân: Người dùng quản lý thơng tin cá nhân tài khoản mình, bao gồm cập nhật thông tin liên hệ, thay đổi mật thêm xóa thơng tin khác 17 Theo dõi lịch sử mượn sách: Thư viện trực tuyến cung cấp cho người dùng khả theo dõi lịch sử mượn sách họ, bao gồm thông tin sách mượn, thời gian mượn hạn trả 1.2.5 Mượn trả sách trực tuyến Người dùng mượn sách điện tử từ thư viện trực tuyến trả lại theo quy định quy trình xác định: Tìm kiếm đặt sách: Người dùng sử dụng chức tìm kiếm để tìm kiếm sách sở liệu thư viện Sau đó, họ đặt sách để mượn thông qua giao diện trực tuyến Xác nhận xử lý yêu cầu mượn: Hệ thống xác nhận yêu cầu mượn sách từ người dùng Q trình bao gồm kiểm tra tính khả dụng sách, kiểm tra tình trạng mượn sách xác minh thông tin tài khoản người dùng Quản lý lịch trả sách: Người dùng theo dõi lịch trả sách thơng qua tài khoản Hệ thống cung cấp thông tin thời hạn mượn sách nhắc nhở người dùng thời gian trả sách Gia hạn mượn sách: Nếu người dùng muốn mượn sách thêm thời gian, thư viện trực tuyến cung cấp chức gia hạn mượn sách Trả sách trực tuyến: Khi người dùng muốn trả sách, thư viện trực tuyến cung cấp chức trả sách trực tuyến Xử lý vi phạm trễ trả: Nếu người dùng vi phạm quy định mượn sách trả sách hạn, thư viện trực tuyến xử lý vi phạm áp dụng biện pháp xử lý Quản lý sách tình trạng mượn: Thư viện trực tuyến cập nhật quản lý thông tin sách, bao gồm tình trạng mượn ngày mượn cập nhật 1.2.6 Hỗ trợ người dùng 18 Cung cấp thông tin liên hệ: Thư viện trực tuyến cung cấp thông tin liên hệ số điện thoại, địa email địa văn phịng để người dùng liên hệ cần hỗ trợ Hỗ trợ trực tuyến: Thư viện trực tuyến cung cấp kênh hỗ trợ trực tuyến chat trực tuyến tin nhắn trực tuyến để người dùng gửi câu hỏi yêu cầu hỗ trợ trực tiếp Hỗ trợ qua email: Người dùng gửi email đến địa email thư viện để yêu cầu hỗ trợ Thư viện trực tuyến phản hồi email cung cấp giải đáp cho câu hỏi yêu cầu người dùng Cung cấp hướng dẫn sử dụng: Thư viện trực tuyến cung cấp hướng dẫn sử dụng chi tiết chức dịch vụ tảng trực tuyến Giải đáp thắc mắc: Thư viện trực tuyến đáp ứng câu hỏi thắc mắc người dùng liên quan đến tài liệu, quy trình mượn sách, chức trực tuyến vấn đề khác liên quan đến dịch vụ thư viện 1.2.7 Bảo mật quản lý liệu Bảo vệ liệu cá nhân: Thư viện trực tuyến có quy định bảo mật quyền riêng tư, đặc biệt xử lý thơng tin cá nhân người dùng Có biện pháp bảo vệ mã hóa liệu, quản lý truy cập sách bảo mật để đảm bảo thơng tin cá nhân khơng bị lộ ngồi Quản lý quyền truy cập: Hệ thống quản lý quyền truy cập để kiểm soát giám sát việc truy cập liệu Chỉ người ủy quyền truy cập vào phần quan trọng hệ thống liệu thư viện Hạn chế Sau trình khảo sát cấu tổ chức hoạt động thư viện trực tuyến Đại học Cơng nghiệp Hà Nội, nhóm chúng em nhận thấy hạn chế quan trọng liên quan đến hoạt động cập nhật tài liệu là: Trong hầu hết 19 hoạt động khác hệ thống thực tự động, hoạt động cập nhật tài liệu cịn thực thủ cơng Điều dẫn đến số hệ quả: Hiệu phân loại tài liệu: Với việc cập nhật tài liệu cách thủ cơng, q trình phân loại tài liệu trở nên khơng hiệu Các thông tin liên quan đến tài liệu thể loại, chủ đề, tác giả, từ khóa phải nhập vào hệ thống tay Điều dễ dẫn đến khác cách phân loại khơng đồng việc tìm kiếm truy xuất tài liệu Hiệu công việc chung: Sự phụ thuộc vào việc cập nhật tài liệu thủ công tạo gánh nặng công việc cho nhân viên thư viện Các thủ thư phải dành thời gian công sức để kiểm tra cập nhật thông tin cho tài liệu Điều tốn nhiều nhân lực làm giảm hiệu cơng việc chung nhân viên thư viện Tiềm ẩn sai sót: Việc thực cập nhật tài liệu thủ cơng có nguy gây sai sót Do tính chất người, xảy việc nhập hay đọc sai thơng tin, thiếu thơng tin sai sót việc phân loại tài liệu Điều ảnh hưởng đến chất lượng thơng tin khả tìm kiếm tài liệu cho người dùng Sự tốn công sức nhân lực: Việc cập nhật tài liệu thủ cơng địi hỏi đội ngũ nhân viên thư viện dành thời gian công sức lớn Họ phải thực công việc kiểm tra cách thủ công cho tài liệu Đề xuất hướng giải Để khắc phục hạn chế hoạt động cập nhật tài liệu thủ công thư viện trực tuyến Đại học Công nghiệp Hà Nội, nhóm chúng em đề xuất giải pháp tự động hóa quy trình thơng qua việc xây dựng hệ thống phân loại văn Tham khảo phân loại Google Mail môi trường thực tế việc phân loại văn thuật toán học máy liên quan đến phân loại, 20

Ngày đăng: 07/08/2023, 01:35

TỪ KHÓA LIÊN QUAN

w