Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,35 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS Nguyễn Trí Thành HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Lời đầu tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy giáo – TS Nguyễn Trí Thành tận tình hướng dẫn, đơn đốc tơi suốt q trình khóa luận tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Tôi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS Lê Văn Thanh tập thể anh chị em công ty iTim động viên, khích lệ, tạo điều kiện cho tơi suốt q trình làm khóa luận Tơi xin gửi lời cảm ơn tới bạn tập thể lớp K51CD K51CHTTT ủng hộ khuyến khích tơi suốt q trình học tập trường Cuối cùng, muốn gửi lời cảm ơn vô hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! Sinh viên Lê Xuân Thành LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt nội dung Trong hệ thống website điện tử, trang tin tức chiếm vai trò quan trọng, giúp người cập nhật tin tức thời thuận tiện lúc nơi Theo Hiệp hội nhà xuất trực tuyến (Online Publishers Association – OPA) phần lớn thời gian Internet người dùng để đọc tin tức1 Như vậy, nhu cầu cập nhật tin tức người lớn, người dùng phải vào trang Web để cập nhật tất tin tức tiện dụng nhiều so với việc phải truy cập vào nhiều trang Khóa luận tập trung vào việc nghiên cứu xây dựng hệ thống tổng hợp tin tức, dựa toán trích xuất thơng tin từ tài liệu Web tốn phân lớp văn Khóa luận đưa mơ hình gom tin tự động với tính mở rộng cao, trình bày bước xây dựng hệ thống tổng hợp tin tức Khóa luận tiến hành chạy thực nghiệm đánh giá kết Kết đánh giá cho thấy chất lượng gom tin phân loại nhanh đáng tin cậy http://www.zing.vn/news/cong-nghe/phan-lon-thoi-gian-vao-mang-la-de-doc-tin-tuc/a65575.html i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Tóm tắt nội dung i Mục lục ii Bảng ký hiệu viết tắt iv Danh sách hình .v Danh sách bảng biểu vi Giới thiệu .1 Chương Nam Khái quát trang tin tức hệ thống tổng hợp tin tức Việt 1.1 Khái quát chung báo điện tử 1.2 Khái quát chung hệ thống tổng hợp tin tức Chương động Cơ sở lý thuyết xây dựng mơ hình hệ thống tổng hợp phân loại tin tự 2.1 Xây dựng crawler 2.1.1 Khái niệm crawler 2.1.2 Xây dựng crawler 10 2.2 Xây dựng trích chọn thơng tin 11 2.2.1 Trích chọn thông tin tài liệu Web 11 2.2.2 Xây dựng trích chọn tài liệu Web 11 2.3 Xây dựng phân lớp 12 2.3.1 Khái niệm phân lớp văn .12 2.3.2 Áp dụng thuật toán phân lớp entropy cực đại xây dựng phân lớp văn 14 2.3.3 Phương pháp đánh giá hiệu suất phân lớp 18 Chương Xây dựng hệ thống tổng hợp phân loại tin tự động 21 3.1 Cơ sở thực tiễn .21 3.2 Xây dựng mơ hình hệ thống 24 3.2.1 Mơ hình tổng quan 25 3.2.2 Module chuẩn hóa liệu huấn luyện/kiểm tra mơ hình .29 3.2.3 Module phân lớp 30 3.2.4 Module sinh file huấn luyện 31 3.3 Khả mở rộng hệ thống 32 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm đánh giá kết 34 4.1 Môi trường phần cứng phần mềm 34 4.1.1 Môi trường phần cứng 34 4.1.2 Công cụ phần mềm .34 4.2 Cấu trúc Cơ sở liệu 37 4.3 Đánh giá chất lượng tổng hợp tin 39 4.4 Thực nghiệm đánh giá hiệu suất phân loại tin tự động 39 4.4.1 Xây dựng tập liệu huấn luyện kiểm tra mơ hình 39 4.4.2 Thực nghiệm thứ 41 4.4.3 Thực nghiệm thứ hai 44 Kết luận .47 Tài liệu tham khảo 49 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng ký hiệu viết tắt Ký hiệu Diễn giải HTML HyperText Markup Language URL Uniform Resource Locator WWW World Wide Web CSDL Cở sở liệu iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình Hình Minh họa lỗi tổng hợp tin trang Baomoi.com…………………………………….5 Hình Minh họa lỗi ảnh trang tintuc.xalo.vn……………………………………… Hình Sơ đồ crawler đơn luồng…………………………………………9 Hình Lược đồ chung xây dựng phân lớp văn bản………………………………….13 Hình 5a Mô tả phần nội dung cần lấy trang tin 1………………………………… 21 Hình 5b Mơ tả phần nội dung cần lấy trang tin 2………………………………… 22 Hình Mơ hình DOM detail-pages………………………………………… 22 Hình 7a Các đặc trưng cho phép trích chọn thơng tin báo 1……………………… 23 Hình 7b Các đặc trưng cho phép trích chọn thơng tin báo2…………………………24 Hình Mơ hình tổng quan hệ thống tổng hợp phân loại tin tức…………………25 Hình Đặc điểm giúp loại tin thuộc lớp chưa quan tâm……………………… .… 28 Hình 10 Module chuẩn hóa liệu huấn luyện/kiểm tra mơ hình………………………29 Hình 11 Module phân lớp……………………………………………………………… 31 Hình 12 Module sinh file huấn luyện……………………………………………………32 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng biểu Bảng Các nhóm tài liệu sau phân lớp………………………………………………….19 Bảng Cấu hình phần cứng sử dụng thực nghiệm……………………………… 34 Bảng Các công cụ phần mềm sử dụng thực nghiệm…………………………….34 Bảng Mô tả chức lớp gói………………………………………….36 Bảng Chi tiết CSDL……………………………………………………………… .38 Bảng Các lớp tài liệu sử dụng thực nghiệm…………………………………….40 Bảng Thống kê số lượng tài liệu dùng cho việc học mơ hình…………………………41 Bảng Thống kê số lượng tài liệu thực nghiệm dùng kiểm tra mơ hình…………… 42 Bảng Kết thực nghiệm 1………………………………………………………… 43 Bảng 10 Thống kê số lượng tài liệu thực nghiệm dùng kiểm tra mơ hình…………….44 Bảng 11 Kết thực nghiệm 2…………………………………………………………45 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu Trong gần hai mươi năm trở lại đây, với phát triển bùng nổ Internet mà đặc biệt World Wide Web (www) - hay gọi tắt Web - mang lại cho người nhiều lợi ích Đồng thời với bùng nổ thơng tin, giúp người dễ dàng cập nhật tin tức nhất, hệ sau tiêu tốn nhiều thời gian, thông tin cần người dùng thuộc nội dung cụ thể lại nằm nhiều trang Web khác Ví dụ nhà đầu tư chứng khốn, thơng tin họ quan tâm tin tức thị trường chứng khoán, kết giao dịch sàn chứng khốn, để có điều thường họ phải truy cập vào nhiều trang khác để có đủ thơng tin Như vậy, nhu cầu đặt cần có hệ thống tổng hợp tin tức nhanh phân chia theo mục, phân mục rõ ràng, giúp thuận tiện cho nhu cầu thông tin người dùng Điều giúp người dùng thuận tiên cho việc tìm, cập nhật thơng tin mà quan tâm cách thuận tiện nhất, tiết kiệm thời gian Điều đặc biệt có ý nghĩa sống bận rộn đại ngày Để giải toán hệ thống tổng hợp tin tức cần phải giải hai tốn khác trích xuất thơng tin từ tài liệu Web phân lớp tự động văn Web – hai toán quan tâm nhiều hội nghị lớn khai phá liệu xử lý ngôn ngữ tự nhiên [6],[9],[10],[14] Khóa luận xây dựng tập luật cho phép tự động gom trích xuất thơng tin từ trang tin tức Việt Nam, tin tức lấy gán nhãn tự động nhờ vào thuật toán phân lớp văn entropy cực đại (maximum entropy), ghi lại vào CSDL, phục vụ cho việc xuất tin Khóa luận gồm có chương mơ tả sơ đây: Chương 1: Khái quát trang tin tức hệ thống tổng hợp tin tức Việt Nam Giới thiệu trang báo điện tử (trang tin tức) hệ thống tổng hợp tin tức Đánh giá ưu nhược điểm hệ thống Chương 2: Cơ sở lý thuyết xây dựng mơ hình hệ thống tổng hợp phân loại tin tự động Giới thiệu crawler, trích chọn thông tin từ tài liệu Web, phân lớp văn phương pháp entropy cực đại Đồng thời chương giới thiệu phương pháp đánh giá hiệu suất việc phân lớp văn thông độ hồi tưởng, độ xác độ đo F1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Mô tả chức lớp gói Packages J_Lib Classes J_GET Tạo yêu cầu (request) GET để lấy mã HTML URL J_Img Tải ảnh, phân loại nén ảnh J_RmTag J_SQL J_Utilities CreateModel J_NLP Chức Predict Xóa thẻ HTML để thu báo dạng văn thông thường Kết nối với CSDL (sử dụng mysqlconnector-java-5.1.12-bin.jar) Sinh mã md5 xâu tiện tích file Sinh mơ hình từ tập liệu huấn luyện (sử dụng maxent) Kiểm tra mô hình, gán nhãn cho liệu kiểm tra (sử dụng maxent) Sử dụng biểu thức quy để chuẩn hóa J_Tokenizer xấu, loại ký tự đặc biệt, loại bỏ từ dừng, tách từ đơn, từ ghép (sử dụng vnTokenizer) Điều khiển lấy tin, trích xuất nội dung, chuẩn Crawler hóa, phân lớp, vào CSDL, (sử dụng UnicodeConverter.jar) xnews Lab Tạo liệu học, kiểm tra mơ hình từ tập liệu thô 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2 Cấu trúc Cơ sở liệu Cơ sở liệu chương trình thiết kế cho việc tối ưu hóa tốc độ truy vấn, số lượng tin tức lưu lớn CSDL chương trình thiết kế gồm bảng t_store01, t_store02 t_store03 cụ thể sau: Bảng t_store01: Cho biết tin theo ngày theo thể loại phép hiển thị Ứng với ngày, bảng t_store01 sinh thêm 10 hàng tương ứng với 10 phân lớp tin tức, lưu trữ thông tin báo ngày theo 10 phân lớp tương ứng Bảng t_store02: Lưu trữ tất thông tin chi tiết báo cụ thể Bảng t_store03: Được thiết kế trường, chức giống với t_store01, có điểm khác nhất, ngược lại với t_store01 cho biết tin phép hiển thị, t_store03 lại cho biết tin khơng phép hiển thị Bảng t_store03 nhằm phục vụ cho việc lưu trữ báo xóa tay trường hợp tin không phù hợp Tất tin lấy về, mặc định ghi vào bảng t_store01 bảng t_store02 Bảng t_store03 sử dụng đến chức người biên tập báo Dù hệ thống lấy tin tức tự động, việc hệ thống cần có người biên tập báo điều hoàn toàn hợp lý Người biên tập có nhiệm vụ theo dõi chuẩn xác lại thơng tin, ví dụ hệ thống mở rộng nguồn cập nhật tin, hệ thống tự động lấy số báo có nội dung liên quan đến vấn đề “nhạy cảm” trị, người biên tập có nhiệm vụ đánh giá mức độ “nhạy cảm” vấn đề đưa định có giữ báo hay không Nếu báo cần xóa, chuyển từ bảng t_store01 sang t_store03 - nơi chứa tin bị xóa (trên thực tế bị ẩn) trường vis bảng t_store02 thay đổi tương ứng Ngoài t_store03 tạo cịn nhằm phép khơi phục lại tin xóa thấy cần thiết Để phục vụ việc tối ưu hóa truy vấn, khóa luận thực đánh mục (index) bảng CSDL tương ứng với khóa bảng đó: - data_type t_store01 t_store03 - u5 t_store02 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Chi tiết CSDL Trường/ Kiểu Khóa liệu Bảng date_type (p) nums Mô tả Date ngày theo kiểu int viết định int int t_store01 dạng YYYYMMDD viết liền type, để chia tin tức theo 10 phân lớp ngày Số đến thời điểm ngày ứng với mục tin date_type Danh sách bảng băm MD5 nums tin tương lu5 text ứng mục tin ngày Hai mã MD5 liên tiếp phân cách xâu “t_#” Mỗi mã MD5 cho phép truy vấn tin theo u5 t_store02 u5 gồm 32 ký tự bảng băm MD5 URL báo gốc u5 sử dụng làm khóa bảng, đồng thời đánh mục (index) u5 t_store02 char(32) (p) cho phép tối ưu hóa truy vấn Ngoài tập tất u5 t_store02 đại diện cho tất URL thăm, cho phép kiểm tra URL chưa thăm vis char(1) vis ấn định trạng thái Mặc định vis có nghĩa báo phép hiển thị Ngược lại vis báo khơng phép hiển thị type int type số có chữ số 00, 01, …, 09 tương ứng với 10 phân lớp tin tức hệ thống 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thông tin tổng hợp báo bao gồm nội dung thông tin: ngày tháng định dạng infors text YYYYMMDDHHmm báo lấy về, URL báo gốc, tiêu đề báo, tóm tắt, link ảnh minh họa Các thơng tin ngăn cách ký hiệu “t_#” view t_store03 mediumtext Chứa tồn phần nội dung thơng tin báo, từ sau phần tóm tắt đến kết thúc Hồn tồn tương tự với t_store01 thành phần 4.3 Đánh giá chất lượng tổng hợp tin Sau thời gian thử nghiệm, quan sát đánh giá, khóa luận tới số kết luận chất lượng tổng hợp tin hệ thống: Tốc độ lấy tin nhanh ổn định Chương trình đặt độ trễ (delay) phút cho hai lần (lặp) lấy tin liên tiếp Kết quan sát cho thấy, tin xuất hệ thống nguồn, sau đến phút, tin tức tự động cập nhật vào hệ thống Chất lượng tin lấy với độ xác cao, khóa luận chưa phát việc trích rút sai nội dung tin tức tiêu đều, tóm tắt, ảnh, nội dung… Khóa luận tiếp tục theo dõi đánh giá thời gian tới 4.4 Thực nghiệm đánh giá hiệu suất phân loại tin tự động 4.4.1 Xây dựng tập liệu huấn luyện kiểm tra mơ hình Để chuẩn bị liệu huấn luyện kiểm tra mơ hình khóa luận thực phân lớp tay dựa vào mục tin (category) Website báo điện tử nguồn Đối với phân lớp, sau phân tay, khóa luận tạo số đoạn mã chương trình Java thực việc lấy tin tức cũ mục tin (phân lớp) theo ngày tháng 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Các lớp tài liệu sử dụng thực nghiệm STT Tên phân lớp VnExpress Mô tả XAHOI Xã hội Giáo dục, lối sống, du lịch,… THEGIOI Thế giới Tình hình giới, chủ yếu tình hình trị KINHDOANH Kinh doanh VANHOA Văn hoá THETHAO Thế giới PHAPLUAT Pháp luật DOISONG Đời sống KHOAHOC Khoa học VITINH Vi tính Cơng nghệ thơng tin truyền thơng 10 XE Ơtơ-Xe máy Phương tiện lại Kinh doanh, tình hình kinh tế, thị trường chứng khoán,… Âm nhạc, thời trang, điện ảnh, nghệ sĩ, mỹ thuật,… Tình hình giới, chủ yếu tình hình trị Vụ án, vụ việc, văn luật Tâm sự, gia đình, tình cảm, nội trợ, nhà ở, ẩm thực,… Khoa học nói chung, khơng liên quan đến lớp Công nghệ Dữ liệu dùng cho việc huấn luyện mơ hình báo lấy từ trang báo điện tử vnexpress.net, với số lượng phân lớp sau: 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Thống kê số lượng tài liệu dùng cho việc học mơ hình STT Phân lớp Số lượng văn XAHOI 1000 THEGIOI 1000 KINHDOANH 1000 VANHOA 1000 THETHAO 1000 PHAPLUAT 1000 DOISONG 1000 KHOAHOC 1000 VITINH 1000 10 XE 1000 Tổng số 10000 Ở đây, khóa luận xin đưa thực nghiệm kiểm tra chất lượng phân loại tin tự động 4.4.2 Thực nghiệm thứ Mô tả thực nghiệm Thực nghiệm nhằm đánh giá chất lượng phân loại tin tự động liệu test lấy từ báo điện tử vnexpress.net 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đầu vào: Mơ hình qua huấn luyện hệ thống, liệu lấy từ vnexpress.net dạng thơ Đầu ra: Bảng đánh giá kết độ xác theo số bao gồm: độ hồi tưởng (R), độ xác (P) độ đo F1 Tập liệu dùng cho việc kiểm tra mơ hình mô tả bảng Bảng Thống kê số lượng tài liệu thực nghiệm dùng kiểm tra mô hình STT Phân lớp Số lượng văn XAHOI 100 THEGIOI 100 KINHDOANH 100 VANHOA 100 THETHAO 100 PHAPLUAT 100 DOISONG 100 KHOAHOC 100 VITINH 100 10 XE 100 Tổng số 1000 Kết thực nghiệm 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Kết thực nghiệm Độ xác (%) Độ hồi tưởng (%) F1 (%) XAHOI 92.93 92.00 92.46 THEGIOI 98.96 95.00 96.94 KINHDOANH 90.74 98.00 94.23 VANHOA 95.24 100.00 97.55 THETHAO 98.99 98.00 98.49 PHAPLUAT 94.23 98.00 96.08 DOISONG 93.20 96.00 94.58 KHOAHOC 97.92 94.00 95.92 VITINH 100.00 93.00 96.37 XE 98.97 96.00 97.46 Trung bình thơ 96.11 96.00 96.01 Trung bình mịn 96.00 96.00 96.00 Nhãn Nhận xét: - Kết thực nghiệm cho thấy kết phân lớp tự động thực với liệu test mơ hình báo điện tử vnexpress.net tốt Tất trường hợp độ đo F1 xác 92% Trung bình mịn độ xác độ hồi tưởng đạt 96% - Đối với đặc trưng tin tức Một báo thuộc lúc nhiều phân lớp Ví dụ, báo với nội dung nói “tình trạng móc túi diễn bến xe bus Hà Nội” tin tức hoàn tồn xếp vào phân lớp PHAPLUAT 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com xong đồng thời xếp vào phân lớp XAHOI Chính chất đa lớp có tin tức cụ thể dẫn đến kết phân lớp bị sai 4.4.3 Thực nghiệm thứ hai Mô tả thực nghiệm Thực nghiệm nhằm đánh giá chất lượng phân loại tin tự động liệu test lấy từ báo khác bao gồm: dantri.com.vn, baodatviet.vn tuoitre.vn Bảng 10 Thống kê số lượng tài liệu thực nghiệm dùng kiểm tra mơ hình STT Phân lớp Số lượng văn XAHOI 50 THEGIOI 50 KINHDOANH 50 VANHOA 50 THETHAO 50 PHAPLUAT 50 DOISONG 50 KHOAHOC 50 VITINH 50 10 XE 50 Tổng số 500 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đầu vào: Mơ hình qua huấn luyện hệ thống, liệu lấy từ nguồn tin dantri.com.vn, baodatviet.vn tuoitre.vn dạng thơ Đầu ra: Bảng đánh giá kết độ xác theo số bao gồm: độ hồi tưởng (R), độ xác (P) độ đo F1 Tập liệu dùng cho việc kiểm tra mơ hình mô tả bảng 10 Kết thực nghiệm Bảng 11 Kết thực nghiệm Độ xác (%) Độ hồi tưởng (%) F1 (%) XAHOI 34.85 46.00 39.66 THEGIOI 83.02 88.00 85.44 KINHDOANH 79.63 86.00 82.69 VANHOA 66.67 80.00 72.73 THETHAO 94.23 98.00 96.08 PHAPLUAT 89.58 86.00 87.75 DOISONG 69.23 54.00 60.67 KHOAHOC 76.67 46.00 57.50 VITINH 83.93 94.00 88.86 100 84.00 91.30 Trung bình thơ 77.78 76.20 76.25 Trung bình mịn 76.20 76.20 76.20 Nhãn XE 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận xét: - Kết thực nghiệm bảng 11 cho biết tổng số lượng văn phân lớp, có khoảng 76% văn phân lớp theo cách phân lớp báo dùng để test - Bảng bảng 11 cho thấy có khác biệt lớn độ xác thực nghiệm so với thực nghiệm Sở dĩ có khác vậy, thực nghiệm 2, khóa luận tiến hành kiểm tra với báo điện tử khác với báo sử dụng để học mô hình, báo khác có phân lớp khơng tương đồng nhau, dẫn đến việc phân lớp theo báo học mơ hình vnexpress.net khơng với báo kiểm tra tuoitre.vn Ví dụ: tin “Phá án buôn ma túy biên giới, công an bị thương”1 theo phân lớp tuoitre.vn xếp vào lớp XAHOI, với tin có nội dung hoàn toàn tương tự “3 cảnh sát bị thương truy bắt nhóm bn ma túy”2 vnexpress.net lại xếp tin vào phân lớp PHAPLUAT http://tuoitre.vn/Chinh-tri-Xa-hoi/380660/Pha an buon-ma-tuy-bien-gioi-3-cong-an-bi-thuong.html http://vnexpress.net/GL/Phap-luat/2010/05/3BA1C4A4/ 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Kết đạt khóa luận Từ việc nghiên cứu tốn hệ thống tổng hợp phân loại tin tự động, khóa luận trình bày phương pháp tổng hợp phân loại tin tức từ trang báo điện tử khác Qua kết thực nghiệm cho thấy tính hiệu phương pháp Về mặt nội dung, khóa luận đạt kết sau: - Giới thiệu hệ thống tổng hợp tin có Việt Nam, ưu nhược điểm - Nghiên cứu sở lý thuyết trích chọn thơng tin tài liệu Web, giới hiệu mơ hình phân lớp văn entropy cực đại Chỉ mạnh phương pháp phân lớp văn phù hợp với nội dung phân lớp tin tức Giới thiệu đại lượng sử dụng cho việc đánh giá kết phân lớp - Thơng qua mơ hình lý thuyết nghiên cứu trích chọn tài liệu Web phân lớp văn bản, khóa luận tiến hành xây dựng mơ hình hệ thống tổng hợp phân loại tin tự động - Trên sở mơ hình có được, khóa luận cài đặt chương trình hệ thống tổng hợp phân loại tin tự động ngôn ngữ Java sử dụng môi trường Netbean - Đánh giá chất lượng tổng hợp hiệu suất phân loại tin hệ thống, từ cho thấy chất lượng tổng hợp hiệu suất phân loại tốt Mặc dù vậy, hạn chế thời gian kiến thức khóa luận cịn hạn chế sau: - Khóa luận chưa xây dựng giao diện người dùng cho hệ thống - Chưa đưa phương pháp xử lý thỏa đáng trường hợp báo thuộc nhiều phân lớp - Chưa kiểm sốt cách tồn diện trường hợp báo có nội dung trùng Định hướng tương lai Trong tương lai, khóa luận tiếp tục nghiên cứu vấn đề sau: 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Phân lớp báo thuộc vào nhiều lớp sử dụng phân lớp mờ Fuzzy - Kiểm soát trường hợp báo có nội dung trùng sử dụng số Jaccard - Đồng thời khóa luận cố gắng để sớm công bố hệ thống để phục vụ người sử dụng 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] Nguyen Viet Cuong, Nguyen Thi Thuy Linh, Phan Xuan Hieu and Ha Quang Thuy (2005) “A Maximum Entropy Model for Vietnamese Web Content Classification” Proceedings of the 8th National Conference on Information Technology of Vietnam: pages 174-189, Vietnam (in Vietnamese) [2] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá liệu Web Nxb GDVN, 2009, tr 153-166, tr 220-233 [3] Berger, A., Della Pietra, S., and Della Pietra, V A maximum entropy approach to natural language processing Computational Linguistics, volume 22, number 1, 1996, pages 39-71 [4] Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006 [5] Chieu, H L and Ng, H T A Maximum Entropy Approach to Information Extraction from Semi-Structured and Free Text Proceedings of the Eighteenth National Conference on Artificial Intelligence (AAAI 2002), 2002, pages 786-791 [6] Crescenzi V., Mecca G., and Merialdo P Roadrunner: Towards Automatic Data Extraction from Large Web Sites.In Proc of Very Large Data Bases (VLDB’01), pages 109–118, 2001 [7] Cuong Nguyen Viet, Nguyen Thi Thuy Linh, Ha Quang Thuy and Phan Xuan Hieu (2006) “A Maximum Entropy Model for Text Classification” Proceedings of International Conference on Internet Information Retrieval 2006 (IRC 2006), pages 143149, Korea [8] Darroch, J and Ratcliff, D Generalized iterative scaling for log-linear models Annals Mathematical Statistics, volume 43, number 5, 1972, pages 1470–1480 [9] Debnath S., Mitra P., and Giles C L Automatic extraction of informative blocks from webpages In Proc SAC, pages 1722-1726, 2005 [10] Debnath S., Mitra P., Pal N., and Giles C L Automatic Identification of Informative , IEEE Trans Knowl Data Eng 17 , 2005 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [11] Della Pietra, S., Della Pietra, V and Lafferty, J 1997 Inducing features of random fields IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 19, number 4, 1997, pages 380–393 [12] Gautam Pant, Parmini Srinivasan, and Filipo Menczer (2004) Crawling the Web Web Dynamic 2004: pg 153-178 [13] Jaynes, E R (1957) Information Theory and Statistical Mechanics Physic Review, volume 106, 1957, pages 620-630 [14] Kushmerick WIEN N Wrapper Induction for Information Extraction Ph.D Thesis Dept of Computer Science, University of Washington, TR UW-CSE-11-041997 [15] NGAI Grace, WU Deka, CARPUAT Marine, WANG Chi-Shing, WANG ChiYung Semantic Role Labeling with Boosting, SVMs, Maximum Entropy, SNOW, and Decision Lists [16] Nigam, K., Lafferty, J and McCallum, A Using maximum entropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, 1999, pages 61-67 [17] Nigam K., McCallum, A., Thrun S and Mitchell, T Text Classification from Labeled and Unlabeled Documents using EM Machine Learning, volume 39, number 2/3, 2000, pages 103-134 [18] Ratnaparkhi, A A simple introduction to maximum entropy models for natural language processing Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS... đây: Chương 1: Khái quát trang tin tức hệ thống tổng hợp tin tức Việt Nam Giới thiệu trang báo điện tử (trang tin tức) hệ thống tổng hợp tin tức Đánh giá ưu nhược điểm hệ thống Chương 2: Cơ sở lý... thuyết xây dựng mơ hình hệ thống tổng hợp phân loại tin tự động Ở chương này, khóa luận xin trình bày bước xây dựng hệ thống tổng hợp tin tức Để có hệ thống tổng hợp tin tức tốt hai điều phải