Xây dựng và kiểm thử hệ thống gợi ý thông tin dựa trên kỹ thuật phân lớp văn bản

100 44 0
Xây dựng và kiểm thử hệ thống gợi ý thông tin dựa trên kỹ thuật phân lớp văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Niên khóa : 2011 – 2015 VIỆN ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN TRỊNH THỊ PHƯƠNG ĐỒNG VĂN TÀI NGÔ THỊ LỆ THOA XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN Chuyên ngành: Công nghệ thông tin ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Hà Nội - Năm 2015 VIỆN ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN TRỊNH THỊ PHƯƠNG ĐỒNG VĂN TÀI NGÔ THỊ LỆ THOA XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN Chuyên ngành: Công nghệ thông tin Giảng viên hướng dẫn: ThS Lê Hữu Dũng VIỆN ĐẠI HỌC MỞ HÀ NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc Hà Nội, ngày 11 tháng 05 năm 2015 NHIỆM VỤ CỦA ĐỒ ÁN TỐT NGHIỆP Họ tên: Trịnh Thị Phương Giới tính: Nữ Ngày sinh: 19/02/1993 Nơi sinh: Nam Định Chuyên ngành: Công nghệ thông tin Mã số: 101 Họ tên: Đồng Văn Tài Giới tính: Nam Ngày sinh: 19/10/1993 Nơi sinh: Quảng Ninh Chuyên ngành: Công nghệ thông tin Mã số: 101 Họ tên: Ngơ Thị Lệ Thoa Giới tính: Nữ Ngày sinh: 22/02/1993 Nơi sinh: Vĩnh Phúc Chuyên ngành: Công nghệ thông tin Mã số: 101 TÊN ĐỀ TÀI Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn NHIỆM VỤ CỦA ĐỀ TÀI Nhiệm vụ cụ thể Đồ án tốt nghiệp: - Nghiên cứu kỹ thuật phân lớp văn - Lựa chọn kỹ thuật phân lớp văn xây dựng hệ thống xử lý trung tâm thực chức phân lớp văn bản, đưa gợi ý thông tin liên quan - Quản lý thông tin cung cấp chức gợi ý thông tin cho hệ thống khách Kiểm thử hệ thống gợi ý thông tin xây dựng NGÀY GIAO NHIỆM VỤ: 06 / 01 / 2015 NGÀY HOÀN THÀNH NHIỆM VỤ: 25 / 05 / 2015 CÁN BỘ HƯỚNG DẪN: ThS Lê Hữu Dũng Nội dung đề cương Đồ án Hội đồng chuyên ngành thông qua Ngày 11 tháng 05 năm 2015 CÁN BỘ HƯỚNG DẪN KHOA CÔNG NGHỆ THÔNG TIN BẢNG PHÂN CƠNG CƠNG VIỆC Thành viên Cơng việc - Khảo sát phân tích hệ thống Đồng Văn Tài (Developer) - Thiết kế hệ thống - Lập trình hệ thống - Self Test - Khảo sát phân tích hệ thống Trịnh Thị Phương - Thiết kế hệ thống (Tester) - Lập trình hệ thống - Thực kiểm thử (Lập Test Plan, Lập tài liệu Test Case, Test Data, Test Script, Tổng hợp báo cáo) - Khảo sát phân tích hệ thống Ngơ Thị Lệ Thoa (Tester) - Thiết kế hệ thống - Lập trình hệ thống - Thực kiểm thử (Lập Test Plan, Lập tài liệu Test Case, Test Data, Test Script, Tổng hợp báo cáo) Các công việc thực theo quy trình có phần thực đan xen công việc thành viên LỜI CẢM ƠN Lời đầu tiên, chúng em xin bày tỏ lịng kính trọng biết ơn tới ThS Lê Hữu Dũng – người tận tình hướng dẫn, bảo suốt trình thực đồ án chúng em Bằng tất lòng, chúng em xin gửi lời cảm ơn chân thành sâu sắc tới Thầy Chúng em xin chân thành cảm ơn Thầy cô giáo Khoa Công nghệ Thông tin, Viện Đại học Mở Hà Nội dìu dắt, tạo điều kiện thuận lợi cho chúng em suốt thời gian học tập nghiên cứu Trường Cảm ơn anh chị bạn Thực tập viên Trung tâm Công nghệ Dịch vụ Trực tuyến (OTSC) bên cạnh, động viên trao đổi kinh nghiệm q trình hồn thành đồ án Cuối cùng, Chúng em xin chân thành cảm ơn thành viên Gia đình, người ln dành cho chúng em tình cảm nồng ấm nhất, bên cạnh, sẵn sàng chia sẻ lúc khó khăn động viên, khích lệ, giúp đỡ chúng em suốt trình học tập, nghiên cứu hoàn thành đồ án tốt nghiệp Bằng tất cố gắng, chúng em xin gửi tặng đồ án quà tinh thần tới thành viên Gia đình Hà Nội, ngày 11 tháng 05 năm 2015 Nhóm thực Trịnh Thị Phương Đồng Văn Tài Ngơ Thị Lệ Thoa LỜI NĨI ĐẦU Trong năm gần đây, phát triển vượt bậc Công nghệ thông tin làm tăng số lượng thông tin mạng Internet cách đáng kể, đặc biệt thư viện điện tử, tin tức điện tử, … Do mà số lượng văn xuất mạng Internet tăng tốc độ chóng mặt, tốc độ thay đổi thơng tin nhanh chóng Với số lượng thông tin đồ sộ vậy, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin, liệu có hiệu Bài tốn gợi ý thơng tin dựa kỹ thuật phân lớp giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân lớp liệu thủ công điều Hướng giải chương trình học máy tự động phân lớp liệu Trong loại liệu văn loại liệu phổ biến mà người thường gặp phải Mơ hình biểu diễn văn phổ biến mơ hình khơng gian vector Tuy nhiên toán khai phá liệu văn thường gặp phải số khó khăn tính nhiều chiều văn bản, tính nhập nhằng ngơn ngữ,… Đồng thời xử lý tốn phân lớp có độ tin cậy cao địi hỏi phải có lượng mẫu liệu huấn luyện tức văn gán nhãn chủ đề lớp tương ứng Do đòi hỏi cần phải xử lý văn hiệu số phương pháp học không cần nhiều liệu phân loại có khả tận dụng nguồn liệu chưa phân loại phong phú Nhóm chúng em chọn đề tài “Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn bản” với mong muốn hệ thống có ý nghĩa thực tiễn việc gợi ý cho người dùng thơng tin hữu ích, giúp tiết kiệm thời gian, công sức mà vấn đề tải thông tin ngày nghiêm trọng MỤC LỤC TÓM TẮT ĐỒ ÁN Họ tên: Chương Chương Chương Trịnh Thị Phương Đồng Văn Tài Ngô Thị Lệ Thoa Chuyên ngành: Công nghệ thông tin Khóa: 11 Cán hướng dẫn: ThS Lê Hữu Dũng Tên đề tài: Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn Tóm tắt: Báo điện tử khơng cịn xa lạ với tất người Hàng ngày có đến hàng trăm, hàng ngàn viết xuất Tuy nhiên, chúng phù hợp với tất người Hệ thống đề tài giải vấn đề q tải thơng tin việc phân lớp thông tin trực tuyến, đưa gợi ý thông tin liên quan cho người dùng cách hiệu Giúp tiết kiệm thời gian, công sức việc tìm kiếm thơng tin hữu ích Thơng tin gợi ý cho người dùng kết trình học máy, phân lớp dự liệu qua việc khai phá nội dung web giải vấn đề xử lý ngôn ngữ tự nhiên với Tiếng Việt Abstract: E-newspaper was not stranger to everyone Everyday, there are hundreds, thousands of new articles be published However, It's not suitable for everyone This system will solve the problem of information overload By the way classifying online informations, suggest the related informations to user efficiently It's saves time and effort in finding useful informations Informations which suggested to users are result of the process of machine learning, data classification through the web content mining and solve the problems of natural language processing with Vietnamese DANH MỤC CÁC CHỮ VIẾT TẮT STT Tên viết tắt kNN SVM VC KKT TBL IGATEC 10 11 WFST MM URL LRMM SEO Tên đầy đủ k-Nearest Neighbor Support Vector Machine Vapnik-Chervonenkis Karush-KuhnTucker Transformation – Based Learning Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese Weighted Finit State Transducer Maximum Matching Resource Locator Left Right Maximum Matching Search Engine Optimization 86  Kiểm thử mức chấp nhận Cuối hệ thống giao cho người dùng để kiểm thử mức chấp nhận Test Module/ Chức Test phương thức Test DetectHTMLContent methods • Mục đích: Nhận dạng tiêu đề tổng số điểm cho tiêu đề • Cơng cụ: phần mềm chạy sẵn • Hình thức test: truyền link • Trạng thái: Pass, Fail • TestCase, TestData tương ứng TestCase (1->10) 87 TestData (Ví dụ tương ứng) 88 Report: Nhandangtieude Bảng 6.21 Kết test nhận dạng tiêu đề Trạng thái Pass Fail Tổng số case: 10 10 Test chức nhận dạng vùng bóc tách Mục đích: Lấy tiêu đề nội dung viết Công cụ: phần mềm chạy Hình thức test: truyền link TestCase, TestData tương ứng - Tổng số TestCase lấy : 250 TestCaseID - Trạng thái : Pass, Fail, Warning (trường hợp lấy tiêu đề lấy phần nội dung) - Một số ví dụ: o Nguồn Test Warning + TestCaseID (Tiin001->Tiin005) 89 + TestData tương tứng Nguồn Test Fail + TestCase + TestData tương ứng 90 Nguồn Test Warning + TestCase + TestData tương ứng 91 6.3.3 Kết Chức năng: Nhận dạng vùng bóc tách Bảng 6.3 Kết Test Nhận dạng vùng bóc tách Test lần Test lần (Test hồi quy) Tổng số case Fail Tỉ lệ đạt 66 49 66,6% 80,16194% 6.4 Báo cáo đánh giá 6.4.1 Chứng minh chương trình đạt chuẩn - Theo lý thuyết xác suất thống kê, với mẫu có số lượng lớn, việc lựa chọn mẫu để kiểm định lấy số lượng từ 30 trở lên, tùy thuộc vào chuyên gia để xác định ước lượng khoảng tin cậy cho tốn - Với tốn đề tài nhóm chúng em, qua trình khảo sát nghiên cứu, chúng em định chọn 50 nguồn tin để test, với nguồn tin lấy link chuyên mục - Yêu cầu chứng minh: Còn p tỉ lệ số link đạt tổng thể = = = 0,604 60% Với độ tin cậy 95% => 95% = 1 1- = 0,95  = 0,05  Tra bảng tính: = z(0,25) = 1,96 - Áp dụng công thức: Ước lượng tỉ lệ đạt 92 – – 1,96 + 1,96  0,604 – 1,96 < p < 0,604 + 1,96  0,754791 < p < 0,653209  Khoảng tin cậy đối xứng cho tỉ lệ p là: p (0,754791; 0,653209) o Với = 0,754791, số link đạt 250 link test là: = * 250 = 0,754791 * 250 179 o Với = 0,653209, số link đạt 250 link test là: = * 250 = 0,653209 * 250 213  Khoảng tin cậy cho số link đạt là: (179; 213)  Điều cần chứng minh 6.4.2 Đánh giá Chương trình khó để bao qt tổng thể phải lấy link từ nhiều nguồn code nhiều cách để thẻ khác (tức khung dạng đặt tiêu đề nội dung viết khác nhau, khơng theo chuẩn cả) Chính thế, qua kết kiểm thử, chương trình đặt tỉ lệ 60% kết khả quan có tính thuyết phục cao Và đạt mức quy định đề ban đầu - Tiếp theo xây dựng tiếp phát triển tiếp đưa công thức chung cho phần mềm chạy để đặt với tỉ lệ lớn số test - Cải thiện số case Fail đặt tới mức tối thiểu để nâng mức hệ thống lên 93 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Phạm Phương Thanh, Mơ hình tin cậy hệ tư vấn lựa chọn, tóm tắt luận văn thạc sĩ, Học viện Cơng nghệ Bưu Viễn thơng, 2010 [2] ng Huy Long, Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn hệ thống tư vấn tin tức, khóa luận tốt nghiệp đại học, Đại học Công nghệ, ĐHQGHN, 2010 [3] Trần Thị Oanh, Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt, Luận văn tốt nghiệp đại học, Đại học công nghiệp, ĐHQGHN, 2006 [4] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ, Gán nhãn từ loại cho Tiếng Việt dựa văn phong tính tốn xác suất, Tạp chí phát triển KH CN, tập 9, số - 2006 [5] Lê Hoàng Quỳnh, So sánh số phương pháp học máy cho toán gán nhãn từ loại tiếng Việt, Khóa luận tốt nghiệp đại học quy, Đại học Công nghệ, ĐHQGHN, 2009 [6] Thái Sơn, Kỹ thuật Support Vector Machines ứng dụng, Luận văn Thặc sỹ khoa học, Đại học Bách Khoa Hà Nội, 2006 [7] Nguyễn Minh Phúc, Tìm hiểu Web Crawler xây dựng Website tổng hợp thơng tin, Khóa luận tốt nghiệp đại học quy, Đại học Cơng nghệ, 2010 [8] Huỳnh Tân Trung, Hệ thống nhận dạng phân loại văn bản, Luận văn thạc sỹ công nghệ thông tin, 2007 [9] Nguyễn Thị Trang, Nghiên cứu phương pháp trích rút văn bản, Luận văn Thạc Sỹ, Học viện bưu viễn thơng, 2013 [10] Nguyễn Đức Vinh, Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt, Khóa luận tốt nghiệp đại học quy, Đại học Cơng Nghiệp, 2009 94 [11] Hồng Văn Dũng, Khai phá liệu web kỹ thuật phân cụm, Luận văn thạc sỹ khoa học, Đại học sư phạm hà Nội, 2007 [12] Trần Ngọc Phúc, Phân loại nội dung tài liệu web, Luận văn thạc sỹ công nghệ thông tin, Đại học Lạc Hồng, 2012 [13] Đặng Hữu Hải, Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh, Tóm tắt luận văn Thạc Sỹ, Học viện bưu viễn thơng, 2013 [14] Nguyễn Thị Hải Yến, Phân lớp bán giám sát ứng dụng thuật toán SVM vào phân lớp trang Web, Khóa luận Tốt nghiệp Đại học Chính quy, Đại học Cơng Nghiệp, 2007 Tiếng Anh: [15] Xiaojin Zhu (2006) Semi-Supervised Learning Literature Survey ComputerSciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [16] T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [17] T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [18] Nguyen, C.-T.,Nguyen, T.-K, Phan, X.-H, Nguyen, L.-M,&Ha, Q.-T (2006) Vietnamese word segmentation with CRFs and SVMs; An investigation In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC 2006) [19] Lưu Tuấn Anh, Yamahamoto kazuhide Ứng dụng phương pháp Pointwise vào toán tách từ cho Tiếng Việt [20] Le, H.-P., Nguyen, M.-H.T., Roussananly, A., & Ho, T.-V (2008) A Hybird Approach to Word Segmentation of Vietnamese Texts, 240 Chương PHỤ LỤC Phụ lục A Đặc tả bảng sở liệu Bảng Hệ thống khách ST Khóa Khóa T ngoại x Tên trường Kiểu liệu Diễn giải PK_iHethongKhachID int Mã hệ thống sTenHethong nvachar(50) khách Tên hệ sLienket nvachar(200 thống Liên kết tThoigianDangky ) datetime Thời gian bigint đăng ký Mã User x FK_iUserID Bảng Kiểm duyệt hệ thống khách ST T Khóa chín h Khóa ngoại Tên trường PK_iKiemduyet x x HethongKhachID FK_iHethongKhachID Kiểu Diễn giải liệu bigint Mã kiểm duyệt int hệ thống khách Mã hệ thống bKiemduyet bit khách Kiểm duyệt tThoigian datetime Thời gian Bảng thơng tin gợi ý Khóa Khó ST chín a T h ngoạ Kiểu Diễn giải liệu Tên trường i × PK_iThongtinID bigint Mã thơng tin tThoigianGoiyLandau datetim Thời gian gợi e ý thông tin Bảng lớp thơng tin ST T Khóa chín h Khó a ngoạ Diễn Tên trường Kiểu liệu giải i PK_iLopThongtinID x tinyint Mã lớp sTenlop nvarchar(50) thông tin Tên lớp sMota nvarchar(250 Mô tả ) Bảng thời gian sử dụng ST Khóa Khó T chín a h ngoạ Tên trường Kiểu Diễn giải liệu i PK_iThoigian x x bigint Mã thời gian sử SudungID FK_iHethong int dụng Mã Hệ thống khách KhachID tThoigianBatdau datetim Thời gian bắt đầu e x tThoigianKetthuc datetim Thời gian kết thúc FK_iUserID tThoigianGhinhan e bigint datetim Mã User Thời gian ghi nhận e Bảng thơng tin ST Khóa Khó Tên trường Kiểu liệu Diễn giải T chín a h ngoạ PK_iThongtinID sTieude bigint nvarchar(250 Mã phiếu yêu cầu Mã thẻ thư viện sNoidung ) ntext Số hiệu sách sNoidungTomtat nvarchar(500 Ngày yêu cầu trả sách sLienket ) nvarchar(200 Liên kết i x x ) FK_iHethong int KhachID tThoigiancapnhat Datetime Mã hệ thống khách Thời gian cập nhật Bảng kết gợi ý thông tin ST Khóa Khó T a Tên trường Kiểu Diễn giải liệu ngoạ i PK_iKetquaGoiy x x x ThongtinID FK_iThongtinID FK_iThongtinGoiyID iSoluotClick bKhongchinhxac bigint Mã kêt gợi ý thông bigint bigint int bit tin Mã thông tin Mã thông tin gợi ý Số lượt click Khơng xác Bảng kết phân lớp ST T Khó Khóa a chín ngoạ h i Tên trường Kiểu liệu Diễn giải x x PK_iThongtinID bigint Mã thông tin FK_iLopThongtinID tinyint Mã lớp thông tin bSudungDeHuanluyen bit Sử dụng để huấn luyện Bảng Users ST Khóa Khó T chín a h ngoạ Tên trường Kiểu Diễn giải liệu i x PK_iUserID sTenDangnhap bigint nvarchar(50 Mã User Tên đăng nhập sMatkhau ) nvarchar(50 Mật bKichhoat ) bit Kích hoạt 10.Bảng UserRoles ST Khóa Khó T chín a h ngoạ Tên trường Kiểu Diễn giải liệu i x x x PK_iUserRolesID FK_UserID FK_RolesID bigint bigint int Mã UserRoles Mã User Mã Roles 11.Bảng Roles ST Khóa Khó T chín a h ngoạ Tên trường Kiểu liệu Diễn giải int nvarchar(50) nvarchar(250 Mã Roles Tên quyền Mô tả i x PK_iRolesID sTenquyen sMota ) ... lớp văn - Lựa chọn kỹ thuật phân lớp văn xây dựng hệ thống xử lý trung tâm thực chức phân lớp văn bản, đưa gợi ý thông tin liên quan - Quản lý thông tin cung cấp chức gợi ý thông tin cho hệ thống. .. KHOA CÔNG NGHỆ THÔNG TIN TRỊNH THỊ PHƯƠNG ĐỒNG VĂN TÀI NGÔ THỊ LỆ THOA XÂY DỰNG VÀ KIỂM THỬ HỆ THỐNG GỢI Ý THÔNG TIN DỰA TRÊN KỸ THUẬT PHÂN LỚP VĂN BẢN Chuyên ngành: Công nghệ thông tin Giảng viên... nghệ thông tin Mã số: 101 TÊN ĐỀ TÀI Xây dựng kiểm thử hệ thống gợi ý thông tin dựa kỹ thuật phân lớp văn 2 NHIỆM VỤ CỦA ĐỀ TÀI Nhiệm vụ cụ thể Đồ án tốt nghiệp: - Nghiên cứu kỹ thuật phân lớp

Ngày đăng: 21/11/2020, 10:18

Mục lục

  • TÓM TẮT ĐỒ ÁN

  • DANH MỤC CÁC CHỮ VIẾT TẮT

  • DANH MỤC CÁC KÝ HIỆU

  • DANH MỤC CÁC BẢNG

  • DANH MỤC HÌNH VẼ

  • Chương 1

  • Chương 1 TỔNG QUAN VỀ ĐỀ TÀI

    • 1.1. Khái quát về các hệ thống gợi ý

      • 1.1.1. Giới thiệu bài toán gợi ý

      • 1.1.2. Các kỹ thuật gợi ý

      • 1.2. Hệ thống gợi ý thông tin của đề tài

        • 1.2.1. Kỹ thuật gợi ý của đề tài.

        • 1.2.2. Thách thức của gợi ý thông tin web Tiếng Việt

        • 1.3. Tổng quan về phân lớp

          • 1.3.1. Quá trình phân lớp dữ liệu

          • 1.3.2. Biểu diễn văn bản

          • 1.3.3. Phương pháp phân lớp văn bản

          • 1.3.4. Các bước trong quá trình phân lớp văn bản

          • 1.3.5. Đánh giá mô hình phân lớp

          • 1.3.6. Các yếu tố quan trọng tác động đến phân lớp văn bản

          • Chương 2

          • Chương 2 THUẬT TOÁN HỌC MÁY PHÂN LỚP

            • 2.1. Bài toán học có giám sát

            • 2.2. Một số phương pháp học máy phân lớp

            • 2.3. Thuật toán SVM với phân lớp văn bản

              • 2.3.1. Giới thiệu về SVM

Tài liệu cùng người dùng

Tài liệu liên quan