Đồ án tốt nghiệp xây dựng và kiểm thử hệ thống gợi ý thông tin dựa trên kỹ thuật phân lớp văn bản

103 10 0
Đồ án tốt nghiệp xây dựng và kiểm thử hệ thống gợi ý thông tin dựa trên kỹ thuật phân lớp văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Niên khóa : 2011 – 2015 XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN TRỊNH THỊ PHƯƠNG ĐỒNG VĂN TÀI NGÔ THỊ LỆ THOA XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN Chuyên ngành: Công nghệ thông tin ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Hà Nội - Năm 2015 TRỊNH THỊ PHƯƠNG ĐỒNG VĂN TÀI NGÔ THỊ LỆ THOA XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN Chuyên ngành: Công nghệ thông tin Giảng viên hướng dẫn: ThS Lê Hữu Dũng VIỆN ĐẠI HỌC MỞ HÀ NỘI CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CƠNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc Hà Nội, ngày 11 tháng 05 năm 2015 NHIỆM VỤ CỦA ĐỒ ÁN TỐT NGHIỆP Họ tên: Trịnh Thị Phương Giới tính: Nữ Ngày sinh: 19/02/1993 Nơi sinh: Nam Định Chuyên ngành: Công nghệ thông tin Mã số: 101 Họ tên: Đồng Văn Tài Giới tính: Nam Ngày sinh: 19/10/1993 Nơi sinh: Quảng Ninh Chuyên ngành: Công nghệ thông tin Mã số: 101 Họ tên: Ngô Thị Lệ Thoa Giới tính: Nữ Ngày sinh: 22/02/1993 Nơi sinh: Vĩnh Phúc Chuyên ngành: Công nghệ thông tin Mã số: 101 TÊN ĐỀ TÀI Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn NHIỆM VỤ CỦA ĐỀ TÀI Nhiệm vụ cụ thể Đồ án tốt nghiệp: - Nghiên cứu kỹ thuật phân lớp văn - Lựa chọn kỹ thuật phân lớp văn xây dựng hệ thống xử lý trung tâm thực chức phân lớp văn bản, đưa gợi ý thông tin liên quan - Quản lý thông tin cung cấp chức gợi ý thông tin cho hệ thống khách - Kiểm thử hệ thống gợi ý thông tin xây dựng NGÀY GIAO NHIỆM VỤ: 06 / 01 / 2015 NGÀY HOÀN THÀNH NHIỆM VỤ: 25 / 05 / 2015 CÁN BỘ HƯỚNG DẪN: ThS Lê Hữu Dũng Nội dung đề cương Đồ án Hội đồng chuyên ngành thông qua Ngày 11 tháng 05 năm 2015 CÁN BỘ HƯỚNG DẪN KHOA CÔNG NGHỆ THÔNG TIN BẢNG PHÂN CÔNG CƠNG VIỆC Thành viên Cơng việc - Khảo sát phân tích hệ thống Đồng Văn Tài (Developer) - Thiết kế hệ thống - Lập trình hệ thống - Self Test - Khảo sát phân tích hệ thống Trịnh Thị Phương - Thiết kế hệ thống (Tester) - Lập trình hệ thống - Thực kiểm thử (Lập Test Plan, Lập tài liệu Test Case, Test Data, Test Script, Tổng hợp báo cáo) - Khảo sát phân tích hệ thống Ngơ Thị Lệ Thoa (Tester) - Thiết kế hệ thống - Lập trình hệ thống - Thực kiểm thử (Lập Test Plan, Lập tài liệu Test Case, Test Data, Test Script, Tổng hợp báo cáo) Các công việc thực theo quy trình có phần thực đan xen cơng việc thành viên LỜI CẢM ƠN Lời đầu tiên, chúng em xin bày tỏ lịng kính trọng biết ơn tới ThS Lê Hữu Dũng – người tận tình hướng dẫn, bảo suốt trình thực đồ án chúng em Bằng tất lòng, chúng em xin gửi lời cảm ơn chân thành sâu sắc tới Thầy Chúng em xin chân thành cảm ơn Thầy cô giáo Khoa Công nghệ Thông tin, Viện Đại học Mở Hà Nội dìu dắt, tạo điều kiện thuận lợi cho chúng em suốt thời gian học tập nghiên cứu Trường Cảm ơn anh chị bạn Thực tập viên Trung tâm Công nghệ Dịch vụ Trực tuyến (OTSC) bên cạnh, động viên trao đổi kinh nghiệm q trình hồn thành đồ án Cuối cùng, Chúng em xin chân thành cảm ơn thành viên Gia đình, người ln dành cho chúng em tình cảm nồng ấm nhất, ln bên cạnh, sẵn sàng chia sẻ lúc khó khăn động viên, khích lệ, giúp đỡ chúng em suốt q trình học tập, nghiên cứu hồn thành đồ án tốt nghiệp Bằng tất cố gắng, chúng em xin gửi tặng đồ án quà tinh thần tới thành viên Gia đình Hà Nội, ngày 11 tháng 05 năm 2015 Nhóm thực Trịnh Thị Phương Đồng Văn Tài Ngơ Thị Lệ Thoa LỜI NÓI ĐẦU Trong năm gần đây, phát triển vượt bậc Công nghệ thông tin làm tăng số lượng thông tin mạng Internet cách đáng kể, đặc biệt thư viện điện tử, tin tức điện tử, … Do mà số lượng văn xuất mạng Internet tăng tốc độ chóng mặt, tốc độ thay đổi thơng tin nhanh chóng Với số lượng thông tin đồ sộ vậy, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin, liệu có hiệu Bài tốn gợi ý thông tin dựa kỹ thuật phân lớp giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân lớp liệu thủ công điều Hướng giải chương trình học máy tự động phân lớp liệu Trong loại liệu văn loại liệu phổ biến mà người thường gặp phải Mơ hình biểu diễn văn phổ biến mơ hình khơng gian vector Tuy nhiên toán khai phá liệu văn thường gặp phải số khó khăn tính nhiều chiều văn bản, tính nhập nhằng ngơn ngữ,… Đồng thời xử lý tốn phân lớp có độ tin cậy cao địi hỏi phải có lượng mẫu liệu huấn luyện tức văn gán nhãn chủ đề lớp tương ứng Do đòi hỏi cần phải xử lý văn hiệu số phương pháp học không cần nhiều liệu phân loại có khả tận dụng nguồn liệu chưa phân loại phong phú Nhóm chúng em chọn đề tài “Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn bản” với mong muốn hệ thống có ý nghĩa thực tiễn việc gợi ý cho người dùng thơng tin hữu ích, giúp tiết kiệm thời gian, công sức mà vấn đề tải thông tin ngày nghiêm trọng MỤC LỤ TÓM TẮT ĐỒ ÁN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC KÝ HIỆU DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ Chương TỔNG QUAN VỀ ĐỀ TÀI 1.1 Khái quát hệ thống gợi ý 1.1.1 Giới thiệu toán gợi ý 1.1.2 Các kỹ thuật gợi ý .1 1.2 Hệ thống gợi ý thông tin đề tài 1.2.1 Kỹ thuật gợi ý đề tài 1.2.2 Thách thức gợi ý thông tin web Tiếng Việt 1.3 Tổng quan phân lớp 1.3.1 Quá trình phân lớp liệu 1.3.2 Biểu diễn văn 1.3.3 Phương pháp phân lớp văn 1.3.4 Các bước trình phân lớp văn 1.3.5 Đánh giá mơ hình phân lớp .11 1.3.6 Các yếu tố quan trọng tác động đến phân lớp văn 11 Chương 13 THUẬT TOÁN HỌC MÁY PHÂN LỚP 13 2.1 Bài tốn học có giám sát .13 2.2 Một số phương pháp học máy phân lớp 14 2.3 Thuật toán SVM với phân lớp văn 16 2.3.1 Giới thiệu SVM 17 2.3.2 Thuật toán SVM 18 2.3.3 Huấn luyện SVM 19 Chương 21 XỬ LÝ VĂN BẢN TIẾNG VIỆT 21 3.1 Đặc trưng Tiếng Việt 21 3.1.1 Đặc trưng 21 3.1.2 Phán đoán web Tiếng Việt 22 3.2 Các phương pháp tách từ Tiếng Việt 22 3.3 Maximum Matching – Phương pháp sử dụng đề tài 24 Chương 26 THỰC HIỆN PHÂN LỚP VĂN BẢN .26 4.1 Chuẩn bị liệu huấn luyện 27 4.1.1 Trình thu thập web 27 4.1.2 Nhận dạng vùng nội dung .31 4.2 Tiền xử lý liệu 33 4.2.1 Tách từ 33 4.2.2 Loại bỏ từ dừng .34 4.2.3 Biểu diễn văn 35 4.3 Huấn luyện học máy 35 4.4.1 Trích chọn đặc trưng văn 35 4.4.2 Tạo mơ hình học máy 36 4.5 Thực phân lớp 36 4.5.1 Nhãn liệu phân lớp .36 4.5.2 Phân lớp liệu 41 Chương 42 TRIỂN KHAI HỆ THỐNG 42 5.1 Các tác nhân ca sử dụng 42 5.1.1 Tác nhân hệ thống .42 5.1.2 Xác định ca sử dụng 42 5.2 Biểu đồ lớp .62 5.2.1 Biểu đồ lớp thực thể 62 5.2.2 Biểu đồ lớp tầng Data 64 5.2.3 Biểu đồ lớp tầng nghiệp vụ 65 5.3 Thiết kế sở liệu .66 5.3.1 Nguyên tắc thiết kế sở liệu .66 5.3.2 Mơ hình quan hệ 66 Chương 67 KIỂM THỬ HỆ THỐNG 67 6.1 Tổng quan kiểm thử hệ thống 67 6.1.1 Lý kiểm thử hệ thống 67 6.1.2 Mục đích kiểm thử hệ thống 68 6.1.3 Vai trò kiểm thử hệ thống 68 6.1.4 Mục tiêu kiểm thử hệ thống .69 6.1.5 Môi trường công cụ kiểm thử 69 6.1.6 Nhân thực kiểm thử .69 6.2 Kế hoạch kiểm thử 70 6.2.1 Phạm vi kiểm thử .70 6.2.2 Quy trình kiểm thử 71 6.2.3 Thời gian kiểm thử 71 6.3 Thực kiểm thử 71 6.3.1 Lý thuyết chọn mẫu 71 6.3.2 Thực kiểm thử Module/ Chức 74 6.3.3 Kết .79 6.4 Báo cáo đánh giá .79 6.4.1 Chứng minh chương trình đạt chuẩn .79 6.4.2 Đánh giá 81 TÀI LIỆU THAM KHẢO 82 PHỤ LỤC .84

Ngày đăng: 21/11/2023, 08:45

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan