Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
1,82 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ———————————— NGUYỄN DANH HÙNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN TỰ ĐỘNG TRÊN WEB Chuyên ngành: Khoa học máy tính Mã số : 60.48.0101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THƠNG TIN Người hướng dẫn khoa học: PGS.TS ĐỒN VĂN BAN Thái nguyên – Năm 2014 -i- MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi MỞ ĐẦU CHƢƠNG 1: KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Giới thiệu khai phá liệu 1.1.2 Quá trình khai phá liệu .6 1.1.3 Các tốn thơng dụng khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.2 Khai phá Web .8 1.2.1 Giới thiệu khai phá Web 1.2.2 Khó khăn thuận lợi 1.2.3 Quá trình khai phá Web .12 1.2.4 Các lĩnh vực khai phá liệu web .15 1.2.5 Các kiểu liệu Web 16 1.3 Phân cụm tài liệu web .17 1.4 Phân lớp văn 19 1.4.1 Bài toán phân lớp văn 19 1.4.2 Dữ liệu văn 21 1.4.3 Biểu diễn văn 21 1.4.4 Một số vấn đề xử lý liệu văn 23 1.5 Tổng kết chƣơng 29 CHƢƠNG 2: MƠ HÌNH HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN TỰ ĐỘNG 30 2.1 Các phƣơng pháp tách từ tiếng Việt 30 2.1.1 Phƣơng pháp Maximum Matching: forward/backward 30 - ii - 2.1.2 Phƣơng pháp giải thuật học cải biến (Tranformation-based Learning) 31 2.1.3 Mơ hình tách từ WFST mạng Neural 32 2.1.4 Phƣơng pháp quy hoạch động (Dynamic Programming) 34 2.1.5 Phƣơng pháp tách từ tiếng việt dựa thống kê từ Internet thuật toán di truyền IGATEC 35 2.2 Các phƣơng pháp phân loại văn 37 2.2.1 Phƣơng pháp phân lớp Bayes (Naïve Bayes) 37 2.2.2 Phƣơng pháp k-ngƣời láng giêng gần (K-Nearest Neighbor) .39 2.2.3 Phƣơng pháp máy hỗ trợ vector (Support vector Machine) 40 2.2.4 Phƣơng pháp mạng nơron (Neural Network) 42 2.2.5 Phƣơng pháp Linear Least Square Fit 43 2.2.6 Phƣơng pháp Centroid-based vector 44 2.3 Phân tích xác định yêu cầu 46 2.3.1 Đặt vấn đề 46 2.3.2 Xác định yêu cầu hệ thống 46 2.4 Mơ hình hệ thống 47 2.4.1 Kiến trúc chung 47 2.4.2 Thành phần Web Crawler 48 2.4.3 Thành phần Extractor 49 2.4.4 Xử lý tài liệu 50 2.4.5 Phân loại văn tiếng Việt 52 2.5 Tổng kết chƣơng 56 CHƢƠNG 3: XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN VIỆC LÀM TỰ ĐỘNG 57 3.1 Mô tả chức hệ thống 57 3.1.1 Chức thu thập xử lý tin tức 57 3.1.2 Chức ngƣời dùng 57 3.1.3 Chức quản trị 57 3.2 Giải pháp công nghệ sử dụng 58 - iii - 3.2.1 Công cụ rút trích liệu HtmlAgiliti Pack 58 3.2.2 Ngôn ngữ truy vấn Xpath 60 3.3 Thiết kế sở liệu 64 3.4 Phát triển chƣơng trình .65 3.4.1 Xây dựng phân hệ Crawler 65 3.4.2 Xây dựng phân hệ Extractor 66 3.4.3 Xây dựng phân hệ xử lý liệu 69 3.4.4 Xây dựng cổng thông tin tổng hợp 69 3.5 Kết thử nghiệm hệ thống .69 3.6 Tổng kết chƣơng 73 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 74 - iv - DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT KDD KPDL IGATEC Knowledge Discovery in Database Khai phá liệu Internet and Genetics Algorithm-based Text Categorization for kNN Documents in Vietnamese K–Nearest Neighbor LLSF NB NNet Linear Least Square Fit Naïve Bayes Neural Network LLSF DF TBL IDF TF Linear Lest Square Fit Tần suất tài liệu (Document Frequency Phƣơng pháp giải thuật học cải biến (Transformation – based Learning Tần suất tài liệu ngƣợc (Inverse document frequency) Tần suất từ (Term frequency -v- DANH MỤC CÁC BẢNG Bảng 1.1: Thống kê từ tần số xuất cao (thống kê B Croft, UMass) 24 Bảng 3.1 Một số cú pháp XPath 62 Bảng 3.2 Bảng tin tức 64 Bảng 3.3 Bảng chuyên mục tin 65 Bảng 3.4 Kênh tin 65 Bảng 3.5 Cấu hình yêu cầu máy thử nghiệm 69 - vi - DANH MỤC CÁC HÌNH Hình 1.1 Các bƣớc khám phá tri thức Hình 1.2 Quá trình khai phá liệu Hình 1.3 Quá trình khai phá văn Web 12 Hình 1.4 Nội dung khai phá liệu Web 16 Hình 1.5 Phân loại liệu Web 17 Hình 1.6 Phân lớp văn 20 Hình 1.7 Biểu diễn văn 22 Hình 1.8 Lƣợc đồ thống kê tần số từ theo Định luật Zipf 25 Hình 2.1 Sơ đồ hệ thống WFST 32 Hình 2.2 Hệ thống IGATEC 35 Hình 2.3 Siêu mặt phẳng h phân chia liệu huấn huyện thành lớp + – với khoảng cách biên lớn 41 Hình 2.4 Kiến trúc mơ đun (Modular Architecture) 43 Hình 2.5 Mơ hình kiến trúc hệ thống thu thập tin 48 Hình 3.1 Giải thuật hoạt động phân hệ Crawler 66 Hình 3.2 Ví dụ sơ đồ DOM 67 Hình 3.2 Giải thuật hoạt động phân hệ Extractor 69 Hình 3.3 Giao diện trang chủ .70 Hình 3.4 Quản lý kênh tinh 71 Hình 3.5 Quản lý cập nhập tin 71 Hình 3.6 Quản lý chuyên mục tin 72 Hình 3.7 Quản lý tin tức 72 -1- MỞ ĐẦU Lý chọn đề tài Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nổ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vƣợt bậc công nghệ thông tin phát triển mạnh mẽ mạng thơng tin tồn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu khai thác xử lý thông tin phục vụ cho công tác quản lý, hoạt động sản xuất, kinh doanh, học tập… trở nên cấp thiết xã hội đại Do số lƣợng văn xuất mạng Internet tăng theo tốc độ chóng mặt Với lƣợng thông tin đồ sộ nhƣ vậy, yêu cầu lớn đặt tổ chức, tìm kiếm có đƣợc thơng tin nhanh chóng, hiệu Để giải vấn đề này, có hƣớng giải nghiên cứu áp dụng kỹ thuật khai phá liệu mơi trƣờng Web Vì tơi chọn đề tài “nghiên cứu xây dựng hệ thống tổng hợp, phân loại thơng tin tự động web” nhằm tìm hiểu phƣơng pháp tổng hợp tin từ nhiều website tự động phân loại tin đƣợc lấy Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: Tìm hiểu khai phá liệu web, thuật toán phân loại tài liệu ứng dụng truy xuất thơng tin tự động Trên sở đó, xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Phạm vi nghiên cứu: Khai phá liệu web Các giải thuật phân cụm tài liệu -2- Các kỹ thuật công nghệ hỗ trợ trích xuất thơng tin tự động Kết hợp yếu tố để xây dựng hệ thống tổng hợp, phân loại thông tin trực tuyến Hƣớng nghiên cứu đề tài Về lý thuyết: Nghiên cứu giải pháp kỹ thuật việc thu thập thông tin tự động internet, ứng dụng kỹ thuật khai phá liệu cho việc phân tích thơng tin thu thập đƣợc theo lĩnh vực khác nhằm giúp ngƣời dung theo dõi, tìm kiếm thơng tin dễ dàng, thuận tiện Về thực tiễn: Ứng dụng hệ thống việc xây dựng hệ thống tổng hợp, phân loại thông tin việc làm tự động Những nội dung Luận văn đƣợc trình bày chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung luận văn đƣợc trình nhƣ sau: Chƣơng 1: Trình bày nội dung tổng quan khai phá liệu, khai phá web, phân loại văn Chƣơng 2: Trình bày số phƣơng pháp tách, phân loại từ tiếng Việt mơ hình hệ thống tổng hợp, phân loại tin tức Chƣơng 3: Trình bày giải pháp xây dựng thử nghiệm hệ thống tổng hợp, phân loại thông tin việc làm tự động Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết: - Tìm hiểu lý thuyết khai phá liệu khai phá liệu web - Tìm hiểu thuật tốn phâm cụm tài liệu - Tìm hiểu chế hoạt động hệ thống tìm kiếm thu thập thơng tin -3- Nghiên cứu thực nghiệm: - Dựa lý thuyết nghiên cứu, tiến hành xây dựng hệ thống thu thập phân loại thông tin từ kênh tin đƣợc cấu hình trƣớc - Thử nghiệm máy đơn qua localhost có kết nối internet Ý nghĩa khoa học Về mặt lý thuyết: Giới thiệu tổng quan, ứng dụng khai phá liệu web, thuật toán phân loại tài liệu chế hệ thống thu thập tin Về mặt thực tiễn: Xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Cho phép ngƣời dung cập nhật thông tin từ website khác, lƣu trữ, tìm kiếm thơng tin theo chuyên mục - 61 - Một nhiều predicate Biểu thức XPath đƣợc đánh giá cách tƣơng đối node ngữ cảnh (context node) Một định hƣớng (axis specifier) “child” cho biết hƣớng di chuyển (để tìm kiếm) hƣớng đến node node ngữ cảnh Node test predicate dùng để lọc node thu đƣợc cách chi tiết Ví dụ node test “A” đòi hỏi tất node nhận đƣợc phải có tên “A” Một predicate dùng để node phải có số đặc điểm Cú pháp biểu thức XPath hai dạng: rút gọn đầy đủ Cú pháp rút gọn: Ví dụ tài liệu XML nhƣ sau: Một biểu thức XPath đơn giản: /A/B/C Biểu thức XPath sử dụng giá trị mặc định axis specifier giá trị child, step biểu thức không sử dụng predicate Biểu thức chọn phần tử C mà phần tử B, phần tử B phải phần tử A Cú pháp XPath có nét tƣơng đồng với cú pháp URI (Uniform Resource Identifier) nhƣ cú pháp đƣờng dẫn file hệ điều hành Unix Một biểu thức phức tạp hơn: A//B/*[1] Biểu thức chọn phần tử có tên tùy ý phải phần tử (“[1]”) phần tử phần tử B, phần tử B phải cháu chắt (“//”) phần tử A đó, phần tử A lại node ngữ cảnh (do biểu thức không bắt đầu “/”) Nếu phần tử A có nhiều node cháu tên B biểu thức trả tập node phần tử B - 62 - Cú pháp đầy đủ: Hai biểu thức XPath đƣợc viết lại dạng đầy đủ chúng nhƣ sau: /child::A/child::B/child::C child::A/descendant-or-self::node()/child::B/child::*[position()=1] Có thể thấy dạng đầy đủ, axis specifier đƣợc viết tƣờng minh step biểu thức, nối tiếp hai dấu hai chấm ::, đến node test nhƣ A, B node() ví dụ 3.2.2.2 Cú pháp XPath Bảng 3.1 Một số cú pháp XPath Cú pháp đầy đủ Cú pháp rút gọn Ví dụ ancestor ancestor-or-self attribute @ child @abc viết tắt attribute::abc xyz viết tắt child::xyz descendant descendant-or-self // //B viết tắt descendant-orself::node()/child::B following following-sibling namespace parent A/ /B viết tắt A/parent::node()/child::B preceding preceding-sibling self viết tắt self::node() 3.2.2.3 Node test Một số node test: comment(): tìm node thích, ví dụ text(): tìm node có kiểu text, ví dụ hello hello world - 63 - processing-instruction(): tìm dẫn xử lý XML, ví dụ processing-instruction(„php‟) trả node node(): tìm node 3.1.2.4 Predicate Một bƣớc biểu thức XPath có nhiều predicate Mỗi predicate đƣợc viết dƣới dạng biểu thức nằm cặp ngoặc vuông [ ], node nhận đƣợc biểu thức phải thỏa điều kiện predicate Ví dụ a[@href=‟help.php‟] trả phần tử có tên a (trong node node ngữ cảnh) có thuộc tính href với giá trị help.php Các predicate trả giá trị boolean, số nguyên, tập node Nếu giá trị trả predicate số nguyên giá trị đƣợc hiểu vị trí node cần tìm, ví dụ p[1] trả phần tử p đầu tiên, p[last()] trả phần tử p cuối Trong trƣờng hợp trả tập node tập node khác rỗng giá trị đƣợc hiểu true, ví dụ p[@id] trả node p có thuộc tính id 3.1.2.5 Các hàm toán tử XPath định nghĩa kiểu liệu: kiểu tập node (node-set), kiểu chuỗi ký tự (string), kiểu số (number) kiểu logic (boolean) Các toán tử phổ biến đƣợc dùng XPath: Toán tử hội “|“ để tìm hội hai tập node Tốn tử logic “and” “or” (và hàm not(boolean) để phủ định biểu thức boolean) Các toán tử cộng trừ nhân chi “+”, “-“, “*”, “div” “mod” Các toán tử so sánh “=”, “!=”, “”, “=” Các hàm phổ biến thự viện hàm XPath 1.0: position(): trả giá trị kiểu số thể vị trí node chuỗi node count(node-set): trả số node có node-set - 64 - string(object?): chuyển kiểu liệu thành kiểu chuỗi Nếu tham số kiểu node-set hàm trả giá trị chuỗi node node-set (theo thứ tự xuất tài liệu) contains(s1, s2): trả true s1 chứa s2 true(), false(): trả giá trị true, false tƣơng ứng Một số ví dụ: //item[@price > 2*@discount] Trả node item có thuộc tính price lớn hai lần giá trị thuộc tính discount nó; //product*contains(comment, ‘bad’)+ Trả node product có node comment chứa từ „bad‟ 3.3 Thiết kế sở liệu Bảng 3.2 Bảng tin tức ARTICLE Tên trƣờng Kiểu liệu Độ dài ArticleID Int CategoryID Nvarchar 256 LanguageID Int Title Nvarchar 256 IntroText Nvarchar 256 IntroImg Nvarchar 256 DetailContent Ntext IsActive Bit CreatedDate DateTime ExpireDate DateTime IsHome Bit IsTopNews Bit ChannelID Int Diễn giải - 65 - Bảng 3.3 Bảng chuyên mục tin CATEGORY Tên trƣờng Kiểu liệu Độ dài CategoryID Int CategoryName Nvarchar 256 ParentID Int Description Nvarchar 256 IsActive bit 256 Diễn giải Bảng 3.4 Kênh tin CHANNELS Tên trƣờng Kiểu liệu Độ dài ChannelID Int Url Nvarchar 256 ChannelName Int XpathTitle Nvarchar 256 XpathDescription Nvarchar 256 XpathContent Nvarchar 256 Diễn giải 3.4 Phát triển chƣơng trình 3.4.1 Xây dựng phân hệ Crawler WebCrawler đƣợc xây dựng hệ thống robot thu thập thông tin tự động từ kinh tin đƣợc cấu hình sẵn hệ thống Khi chƣơng trình quản lý tin tức đƣợc khởi động, tải danh sách kênh tin CSDL ứng với kênh tin tạo crawler để tải tin từ kênh Việc khởi tạo chạy nhiều Crawler khiến chƣơng trình bị chậm lại, ảnh hƣởng đến tốc độ hệ thống Do đó, Crawler đƣơc tạo chạy chế độ nền, theo tiến trình (thread) khác với chƣơng trình Do chƣơng trình khơng bị ảnh hƣởng - 66 - Bắt đầu Tải thơng tin cấu hình kênh từ CSDL Duyệt danh sách kênh tin Khởi tạo tiến trình robot thu thập tin tức Chạy tiến trình thu thập tin lƣu vào Hết danh Kết thúc Hình 3.1 Giải thuật hoạt động phân hệ Crawler 3.4.2 Xây dựng phân hệ Extractor Tài liệu Crawler tải dạng HTML chứa nội dung TEXT thẻ (tag) HTML Đặc thù file HMTL định dạng trang web thẻ Mỗi thẻ có thuộc tính giá trị, thẻ lồng Do cần phải bóc tách lấy thẻ để lấy nội dung thông tin Việc bóc tách nội dung đƣợc thực cụ thể tùy theo kênh tin Với file HTML chuẩn (XHTML), ta biểu diễn file dƣới dạng nhƣ sau: - 67 - Hình 3.2 Ví dụ sơ đồ DOM Ở hình trên, thẻ đƣợc đánh dấu tiêu đề tin trang careerlink.vn (Thời điểm năm 2014) Ngồi ta xác định xác thơng tin thẻ thơng qua XPath thuộc tính thẻ Nhƣ để phân biệt đƣợc thơng tin có định dạng giống nhau, ta dựa vào: - Tên thẻ chứa thơng tin (Ví dụ thẻ ) - Vết thẻ (VD:…) - Thuộc tính riêng thẻ - 68 - Ví dụ: XpathTitle kênh tin: http://www.careerlink.vn/ nhƣ sau: - Dạng 1: /html[1]/body[1]/div[2]/div[2]/div[1]/div[2]/div[1]/div[1]/ul[1]/li[5]/a[1]/#text[1] - Dạng 2: //div[@id=‟main‟]/div[@id=‟homecontent‟]/div[@class=‟container‟]/div[@id=‟leftl]/ div[@class=‟box‟]/div[@class=‟listjob‟]/ul[1]/li/a Do để cung cấp thơng tin cho Extractor bóc liệu text từ nội dung HTML, cần phải cung cấp đƣờng dẫn Xpath nhƣ đến đối tƣợng cần lấy Thông tin đƣợc cấu hình kênh tin nhƣ sau: - Url: Địa kênh tin - Name: Mô tả tên kênh tin - XPathTitle: Đƣờng dẫn XPath phần tiêu đề - XPathDecription: Đƣờng dẫn XPath phần tóm tắn tin - XPathContent: Đƣờng dẫn XPath phần nội dung tin chi tiết Trên sở thông tin kênh tin nhƣ trên, Extractor đọc tài liệu DOM tin tức thuộc Url kênh dựa vào dẫn XPath, tự động tách lƣu phần tin tức nhƣ tiêu đề, tóm tắt tin, nội dung chi tiết tin Bắt đầu Chuẩn hóa tài liệu HTML Duyệt qua tất node DOM Xác định node thỏa mãn biểu thức XPath Lấy thơng tin thuộc tính Text node Lƣu thơng tin Kết thúc - 69 - Hình 3.2 Giải thuật hoạt động phân hệ Extractor 3.4.3 Xây dựng phân hệ xử lý liệu Phân hệ có chức xử lý tin tức thu thập đƣợc nhằm mục đích phân loại chuyên mục cho tin tức Các bƣớc xử lý bao gồm: Loại bỏ dấu câu Tách từ Tính tốn ma trận trọng số TF-IDF tập tin tức So sánh độ tƣơng tự tin tin có sẵn chuyên mục Xác định chuyên mục cho tin cập nhật 3.4.4 Xây dựng cổng thông tin tổng hợp Các phân hệ đƣợc xây dựng thành 02 module chính: Module tin tức Module chuyên mục Module tin tức có nhiệm vụ lấy hiển thị tin trang chủ, quản lý tin (sửa, xóa, duyệt tin), hiển thị theo chun mục, tìm kiếm Module chun mục có chức quản lý chuyên mục (nhóm) tin, cho phép thêm, sửa, xóa nhóm tin, gán tin đƣợc tải tự động vào chuyên mục hệ thống phân loại sai 3.5 Kết thử nghiệm hệ thống Chƣơng trình đƣợc cài đặt 01 máy chủ Web có kết nối mạng Các máy trạm truy cập vào hệ thống qua mạng Lan (có chứa máy chủ Web) qua Intenet Các máy có cấu hình phần mềm cần thiết nhƣ sau: Bảng 3.5 Cấu hình yêu cầu máy thử nghiệm MÁY CHỦ Cấu hình Intel Core Duo 3Ghz, Ram 2G Hệ điều hành Microsoft Windows Server, Window Xp, Window7, Window8 Cơ sở liệu Microsoft SQL Server Webserver IIS - 70 - Webserver ASP.NET MÁY TRẠM Hệ điều hành Window Xp, Window7, Window8 Linux Trình duyệt IE, FireFox, Chrome, Opera - Giao diện trang chủ: Hiển thị danh sách tin trang chủ, hỗ trợ hiển thị tin theo chuyên mục đƣợc lựa chọn Hình 3.3 Giao diện trang chủ - 71 - - Quản lý nguồn tin (kênh tin) Hình 3.4 Quản lý kênh tinh - Quản lý cập nhật tin Hình 3.5 Quản lý cập nhập tin - 72 - - Quản lý chuyên mục tin Hình 3.6 Quản lý chuyên mục tin - Quản lý tin tức: Duyệt/Xuất bản, sửa, xóa tin Hình 3.7 Quản lý tin tức - 73 - Đánh giá kết quả: Phân hệ Crawler Extractor hoạt động tốt theo yêu cầu đề ra, cho phép tải tin tức từ kênh đƣợc cấu hình sẵn Kết bóc tác nội dung tốt, khơng có sai sót Phân hệ xử lý liệu phân loại: Kết phân loại tƣơng đối xác, nhiên số lƣợng tin thử nghiệm chƣa nhiều nên chƣa có số liệu tỉ lệ sai sót Các phân hệ quản lý hệ thống khác vận hành theo thiết kế 3.6 Tổng kết chƣơng Chƣơng mô tả chức hệ thống đồng thời giới thiệu cơng cụ rút trích liệu HtmlAgiliti Pack Ngơn ngữ truy vấn Xpath, từ thực xây dựng hệ thống theo yêu cầu đề - 74 - KẾT LUẬN Đề tài trình bày đƣợc kiến thức tổng quan khai phá liệu, ứng dụng phân loại liệu khai phá liệu web, số thuật toán tách từ thuật toán phân loại tiếng Việt Đồng thời ứng dụng để xây dựng hệ thống tự động rút trích thơng tin từ Website khác phân loại tin tức tự động Kết đạt đƣợc: - Trình bày tổng quan khai phá liệu, khai phá web, tốn thơng dụng khai phá liệu ứng dụng - Trình bày tốn phân lớp văn bản, cách biểu diễn số vấn đề xử lý liệu văn bản, phƣơng pháp tách từ tiếng Việt phƣơng pháp phân loại văn - Đề xuất giải pháp kỹ thuật tổng hợp thông tin tự động internet phân loại tin thu thập đƣợc Xây dựng mô hình, cài đặt thử nghiệm hệ thống Hạn chế: - Thời gian bóc tách, xử lý, phân loại tƣơng đối chậm phải tính tốn tồn liệu - Hệ thống Crawler đƣợc xây dựng đơn giản, giới hạn cấp Url Hƣớng phát triển: - Cải thiện chức phân hệ bóc tách liệu có độ tùy biến, linh động cao thay phải cấu hình sẵn kênh tin - Nghiên cứu giải thuật phân loại nhằm tăng cƣờng tốc độ hệ thống độ xác việc phân loại thơng tin Mặc dù thực đƣợc nội dung xây dựng thử nghiệm thành cơng nhƣng luận văn cịn nhiều thiếu sót cần đƣợc bổ sung Em mong nhận đƣợc ý kiến đóng góp thầy, cơ, bạn bè, đồng nghiệp để luận văn đƣợc hoàn thiện - 75 - TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (chủ biên) tác giả (2009), Giáo trình khai phá liệu web, Nhà xuất giáo dục [2] N.T Hùng (2006), Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia TP HCM [3] Nguyễn Văn Ba (2003), Phân tích thiết kế hệ thống thông tin, NXB Đại học Quốc gia Hà Nội [4] Đinh Điền (2004), Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa học Tự Nhiên Tp.HCM Tiếng Anh [5] Soumen Chakrabarti (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers [6] William W Cohen and Andrew McCallum (2003), Information Extraction from the World Wide Web KDD [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003), Modeling the Internet and theWeb: Probabilistic Methods and Algorithms, JohnWiley & Sons Ltd [8] David L Olson, Dursun Delen (2008), Advanced Data Mining Techniques, Springer-Verlag [9] Oded Maimon, Lior Rokach (2010), Data Mining and Knowledge Discovery Handbook, Second Edition, Springer Science + Business Media, LLC [10] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar (2009), Next Generation of Data Mining, Taylor & Francis Group, LLC [11] Le An Ha (2003), A method for word segmentation Vietnamese, Procesdding of Corpus Linguistics 2003, Lamcaster, UK ... tài ? ?nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động web? ?? nhằm tìm hiểu phƣơng pháp tổng hợp tin từ nhiều website tự động phân loại tin đƣợc lấy Đối tƣợng phạm vi nghiên cứu. .. tƣợng nghiên cứu: Tìm hiểu khai phá liệu web, thuật toán phân loại tài liệu ứng dụng truy xuất thông tin tự động Trên sở đó, xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Phạm vi nghiên. .. Giới thiệu tổng quan, ứng dụng khai phá liệu web, thuật toán phân loại tài liệu chế hệ thống thu thập tin Về mặt thực tiễn: Xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Cho phép