1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên web

93 151 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 3,12 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ———————————— NGUYỄN DANH HÙNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN TỰ ĐỘNG TRÊN WEB Chuyên ngành: Khoa học máy tính Mã số : 60.48.0101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THƠNG TIN Người hướng dẫn khoa học: PGS.TS ĐỒN VĂN BAN Thái nguyên – Năm 2014 -i- MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi MỞ ĐẦU CHƯƠNG 1: KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Giới thiệu khai phá liệu 1.1.2 Quá trình khai phá liệu .6 1.1.3 Các tốn thơng dụng khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.2 Khai phá Web .8 1.2.1 Giới thiệu khai phá Web 1.2.2 Khó khăn thuận lợi 1.2.3 Quá trình khai phá Web .12 1.2.4 Các lĩnh vực khai phá liệu web .15 1.2.5 Các kiểu liệu Web 16 1.3 Phân cụm tài liệu web .17 1.4 Phân lớp văn 19 1.4.1 Bài toán phân lớp văn 19 1.4.2 Dữ liệu văn 21 1.4.3 Biểu diễn văn 21 1.4.4 Một số vấn đề xử lý liệu văn 23 1.5 Tổng kết chương 29 CHƯƠNG 2: MƠ HÌNH HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THƠNG TIN TỰ ĐỘNG 30 -i2.1 Các phương pháp tách từ tiếng Việt 30 2.1.1 Phương pháp Maximum Matching: forward/backward .30 - ii - 2.1.2 Phương pháp giải thuật học cải biến (Tranformation-based Learning) 31 2.1.3 Mơ hình tách từ WFST mạng Neural 32 2.1.4 Phương pháp quy hoạch động (Dynamic Programming) 34 2.1.5 Phương pháp tách từ tiếng việt dựa thống kê từ Internet thuật toán di truyền IGATEC 35 2.2 Các phương pháp phân loại văn 37 2.2.1 Phương pháp phân lớp Bayes (Naïve Bayes) 37 2.2.2 Phương pháp k-người láng giêng gần (K-Nearest Neighbor) .39 2.2.3 Phương pháp máy hỗ trợ vector (Support vector Machine) 40 2.2.4 Phương pháp mạng nơron (Neural Network) 42 2.2.5 Phương pháp Linear Least Square Fit 43 2.2.6 Phương pháp Centroid-based vector 44 2.3 Phân tích xác định yêu cầu 46 2.3.1 Đặt vấn đề 46 2.3.2 Xác định yêu cầu hệ thống 46 2.4 Mơ hình hệ thống 47 2.4.1 Kiến trúc chung 47 2.4.2 Thành phần Web Crawler 48 2.4.3 Thành phần Extractor 49 2.4.4 Xử lý tài liệu 50 2.4.5 Phân loại văn tiếng Việt 52 2.5 Tổng kết chương 56 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THÔNG TIN VIỆC LÀM TỰ ĐỘNG 57 3.1 Mô tả chức hệ thống 57 3.1.1 Chức thu thập xử lý tin tức 57 3.1.2 Chức người dùng 57 3.1.3 Chức quản trị 57 3.2 Giải pháp công nghệ sử dụng 58 -3- 3.2.1 Cơng cụ rút trích liệu HtmlAgiliti Pack 58 3.2.2 Ngôn ngữ truy vấn Xpath 60 3.3 Thiết kế sở liệu 64 3.4 Phát triển chương trình .65 3.4.1 Xây dựng phân hệ Crawler 65 3.4.2 Xây dựng phân hệ Extractor 66 3.4.3 Xây dựng phân hệ xử lý liệu 69 3.4.4 Xây dựng cổng thông tin tổng hợp 69 3.5 Kết thử nghiệm hệ thống .69 3.6 Tổng kết chương 73 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO .74 -4- DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT KDD Knowledge Discovery in Database KPDL IGATEC Khai phá liệu Internet and Genetics Algorithm-based Text Categorization for kNN LLSF NB NNet LLSF DF TBL IDF TF Documents in Vietnamese K–Nearest Neighbor Linear Least Square Fit Naïve Bayes Neural Network Linear Lest Square Fit Tần suất tài liệu (Document Frequency Phương pháp giải thuật học cải biến (Transformation – based Learning Tần suất tài liệu ngược (Inverse document frequency) Tần suất từ (Term frequency -5- DANH MỤC CÁC BẢNG Bảng 1.1: Thống kê từ tần số xuất cao (thống kê B Croft, UMass) 24 Bảng 3.1 Một số cú pháp XPath 62 Bảng 3.2 Bảng tin tức 64 Bảng 3.3 Bảng chuyên mục tin 65 Bảng 3.4 Kênh tin 65 Bảng 3.5 Cấu hình yêu cầu máy thử nghiệm 69 -6- DANH MỤC CÁC HÌNH Hình 1.1 Các bước khám phá tri thức Hình 1.2 Quá trình khai phá liệu Hình 1.3 Quá trình khai phá văn Web 12 Hình 1.4 Nội dung khai phá liệu Web 16 Hình 1.5 Phân loại liệu Web 17 Hình 1.6 Phân lớp văn 20 Hình 1.7 Biểu diễn văn 22 Hình 1.8 Lược đồ thống kê tần số từ theo Định luật Zipf 25 Hình 2.1 Sơ đồ hệ thống WFST 32 Hình 2.2 Hệ thống IGATEC .35 Hình 2.3 Siêu mặt phẳng h phân chia liệu huấn huyện thành lớp + – với khoảng cách biên lớn 41 Hình 2.4 Kiến trúc mô đun (Modular Architecture) 43 Hình 2.5 Mơ hình kiến trúc hệ thống thu thập tin 48 Hình 3.1 Giải thuật hoạt động phân hệ Crawler 66 Hình 3.2 Ví dụ sơ đồ DOM 67 Hình 3.2 Giải thuật hoạt động phân hệ Extractor 69 Hình 3.3 Giao diện trang chủ .70 Hình 3.4 Quản lý kênh tinh 71 Hình 3.5 Quản lý cập nhập tin 71 Hình 3.6 Quản lý chuyên mục tin .72 Hình 3.7 Quản lý tin tức .72 -1- MỞ ĐẦU Lý chọn đề tài Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nổ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thơng tin tồn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu khai thác xử lý thông tin phục vụ cho công tác quản lý, hoạt động sản xuất, kinh doanh, học tập… trở nên cấp thiết xã hội đại Do số lượng văn xuất mạng Internet tăng theo tốc độ chóng mặt Với lượng thông tin đồ sộ vậy, yêu cầu lớn đặt tổ chức, tìm kiếm có thơng tin nhanh chóng, hiệu Để giải vấn đề này, có hướng giải nghiên cứu áp dụng kỹ thuật khai phá liệu mơi trường Web Vì chọn đề tài “nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động web” nhằm tm hiểu phương pháp tổng hợp tin từ nhiều website tự động phân loại tin lấy Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Tìm hiểu khai phá liệu web, thuật toán phân loại tài liệu ứng dụng truy xuất thông tin tự động Trên sở đó, xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Phạm vi nghiên cứu: Khai phá liệu web Các giải thuật phân cụm tài liệu -2- Các kỹ thuật công nghệ hỗ trợ trích xuất thơng tin tự động  Kết hợp yếu tố để xây dựng hệ thống tổng hợp, phân loại thông tin trực tuyến Hướng nghiên cứu đề tài Về lý thuyết: Nghiên cứu giải pháp kỹ thuật việc thu thập thông tin tự động internet, ứng dụng kỹ thuật khai phá liệu cho việc phân tích thơng tin thu thập theo lĩnh vực khác nhằm giúp người dung theo dõi, tìm kiếm thơng tin dễ dàng, thuận tiện Về thực tiễn: Ứng dụng hệ thống việc xây dựng hệ thống tổng hợp, phân loại thông tin việc làm tự động Những nội dung Luận văn trình bày chương, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung luận văn trình sau: Chương 1: Trình bày nội dung tổng quan khai phá liệu, khai phá web, phân loại văn Chương 2: Trình bày số phương pháp tách, phân loại từ tiếng Việt mơ hình hệ thống tổng hợp, phân loại tin tức Chương 3: Trình bày giải pháp xây dựng thử nghiệm hệ thống tổng hợp, phân loại thông tin việc làm tự động Phương pháp nghiên cứu Nghiên cứu lý thuyết: - Tìm hiểu lý thuyết khai phá liệu khai phá liệu web - Tìm hiểu thuật tốn phâm cụm tài liệu - Tìm hiểu chế hoạt động hệ thống tìm kiếm thu thập thơng tin Một biểu thức XPath đơn giản: /A/B/C Biểu thức XPath sử dụng giá trị mặc định axis specifier giá trị child, step biểu thức không sử dụng predicate Biểu thức chọn phần tử C mà phần tử B, phần tử B phải phần tử A Cú pháp XPath có nét tương đồng với cú pháp URI (Uniform Resource Identifier) cú pháp đường dẫn file hệ điều hành Unix Một biểu thức phức tạp hơn: A//B/*[1] Biểu thức chọn phần tử có tên tùy ý phải phần tử (“[1]”) phần tử phần tử B, phần tử B phải cháu chắt (“//”) phần tử A đó, phần tử A lại node ngữ cảnh (do biểu thức không bắt đầu “/”) Nếu phần tử A có nhiều node cháu tên B biểu thức trả tập node phần tử B Cú pháp đ ầ y đ ủ: Hai biểu thức XPath viết lại dạng đầy đủ chúng sau: /child::A/child::B/child::C child::A/descendant-or-self::node()/child::B/child::*[position()=1] Có thể thấy dạng đầy đủ, axis specifier viết tường minh step biểu thức, nối tiếp hai dấu hai chấm ::, đến node test A, B node() ví dụ 3.2.2.2 Cú pháp XPath Bảng 3.1 Một số cú pháp XPath Cú pháp đầy đủ Cú pháp rút gọn Ví dụ ancestor ancestor-or-self attribute @ child @abc viết tắt attribute::abc xyz viết tắt child::xyz descendant descendant-or-self // //B viết tắt descendant-orself::node()/child::B following following-sibling namespace parent A/ /B viết tắt A/parent::node()/child::B preceding preceding-sibling self viết tắt self::node() 3.2.2.3 Node test Một số node test: comment(): tìm node thích, ví dụ text(): tìm node có kiểu text, ví dụ hello hello world processing-instruction(): tìm dẫn xử lý XML, ví dụ processing-instruction(„php‟) trả node node(): tìm node 3.1.2.4 Predicate Một bước biểu thức XPath có nhiều predicate Mỗi predicate viết dạng biểu thức nằm cặp ngoặc vuông [ ], node nhận biểu thức phải thỏa điều kiện predicate Ví dụ a[@href=‟help.php‟] trả phần tử có tên a (trong node node ngữ cảnh) có thuộc tính href với giá trị help.php Các predicate trả giá trị boolean, số nguyên, tập node Nếu giá trị trả predicate số nguyên giá trị hiểu vị trí node cần tìm, ví dụ p[1] trả phần tử p đầu tiên, p[last()] trả phần tử p cuối Trong trường hợp trả tập node tập node khác rỗng giá trị hiểu true, ví dụ p[@id] trả node p có thuộc tính id 3.1.2.5 Các hàm tốn tử XPath định nghĩa kiểu liệu: kiểu tập node (node-set), kiểu chuỗi ký tự (string), kiểu số (number) kiểu logic (boolean) Các toán tử phổ biến dùng XPath: Tốn tử hội “|“ để tìm hội hai tập node  Toán tử logic “and” “or” (và hàm not(boolean) để phủ định biểu thức boolean) Các toán tử cộng trừ nhân chi “+”, “-“, “*”, “div” “mod” Các toán tử so sánh “=”, “!=”, “”, “=” Các hàm phổ biến thự viện hàm XPath 1.0:  position(): trả giá trị kiểu số thể vị trí node chuỗi node count(node-set): trả số node có node-set string(object?): chuyển kiểu liệu thành kiểu chuỗi Nếu tham số kiểu node-set hàm trả giá trị chuỗi node node-set (theo thứ tự xuất tài liệu) contains(s1, s2): trả true s1 chứa s2 true(), false(): trả giá trị true, false tương ứng Một số ví dụ: //item[@price > 2*@discount] Trả node item có thuộc tính price lớn hai lần giá trị thuộc tính discount nó; //product*contains(comment, ‘bad’)+ Trả node product có node comment chứa từ „bad‟ 3.3 Thiết kế sở liệu Bảng 3.2 Bảng tn tức ARTICLE Tên trường ArticleID Kiểu liệu Int Độ dài CategoryID Nvarchar 256 LanguageID Int Title Nvarchar 256 IntroText Nvarchar 256 IntroImg Nvarchar 256 DetailContent Ntext IsActive Bit CreatedDate DateTime ExpireDate DateTime IsHome Bit IsTopNews Bit ChannelID Int Diễn giải Bảng 3.3 Bảng chuyên mục tn CATEGORY Tên trường CategoryID Kiểu liệu Int Độ dài CategoryName Nvarchar 256 ParentID Int Description Nvarchar 256 IsActive bit 256 Diễn giải Bảng 3.4 Kênh tn CHANNELS Tên trường ChannelID Kiểu liệu Int Độ dài Url Nvarchar 256 ChannelName Int XpathTitle Nvarchar 256 XpathDescription Nvarchar 256 XpathContent Nvarchar 256 Diễn giải 3.4 Phát triển chương trình 3.4.1 Xây dựng phân hệ Crawler WebCrawler xây dựng hệ thống robot thu thập thông tin tự động từ kinh tin cấu hình sẵn hệ thống Khi chương trình quản lý tin tức khởi động, tải danh sách kênh tin CSDL ứng với kênh tin tạo crawler để tải tin từ kênh Việc khởi tạo chạy nhiều Crawler khiến chương trình bị chậm lại, ảnh hưởng đến tốc độ hệ thống Do đó, Crawler đươc tạo chạy chế độ nền, theo tiến trình (thread) khác với chương trình Do chương trình khơng bị ảnh hưởng Bắt đầu Tải thơng tin cấu hình kênh từ CSDL Duyệt danh sách kênh tin Khởi tạo tiến trình robot thu thập tin tức Chạy tiến trình thu thập tin lưu vào Hết Kết thúc Hình 3.1 Giải thuật hoạt động phân hệ Crawler 3.4.2 Xây dựng phân hệ Extractor Tài liệu Crawler tải dạng HTML chứa nội dung TEXT thẻ (tag) HTML Đặc thù file HMTL định dạng trang web thẻ Mỗi thẻ có thuộc tính giá trị, thẻ lồng Do cần phải bóc tách lấy thẻ để lấy nội dung thơng tin Việc bóc tách nội dung thực cụ thể tùy theo kênh tin Với file HTML chuẩn (XHTML), ta biểu diễn file dạng sau: Hình 3.2 Ví dụ sơ đồ DOM Ở hình trên, thẻ đánh dấu tiêu đề tin trang careerlink.vn (Thời điểm năm 2014) Ngồi ta xác định xác thông tin thẻ thông qua XPath thuộc tính thẻ Như để phân biệt thơng tin có định dạng giống nhau, ta dựa vào: - Tên thẻ chứa thông tin (Ví dụ thẻ ) - Vết thẻ (VD:…) - Thuộc tính riêng thẻ Ví dụ: XpathTitle kênh tin: http://www.careerlink.vn/ sau: - Dạng 1: /html[1]/body[1]/div[2]/div[2]/div[1]/div[2]/div[1]/div[1]/ul[1]/li[5]/a[1]/#text[1] - Dạng 2: //div[@id=‟main‟]/div[@id=‟homecontent‟]/div[@class=‟container‟]/div[@id=‟leftl] / div[@class=‟box‟]/div[@class=‟listjob‟]/ul[1]/li/a Do để cung cấp thơng tin cho Extractor bóc liệu text từ nội dung HTML, cần phải cung cấp đường dẫn Xpath đến đối tượng cần lấy Thơng tin cấu hình kênh tin sau: - Url: Địa kênh tin - Name: Mô tả tên kênh tin - XPathTitle: Đường dẫn XPath phần tiêu đề - XPathDecription: Đường dẫn XPath phần tóm tắn tin - XPathContent: Đường dẫn XPath phần nội dung tin chi tiết Trên sở thông tin kênh tin trên, Extractor đọc tài liệu DOM tin tức thuộc Url kênh dựa vào dẫn XPath, tự động tách lưu phần tin tức tiêu đề, tóm tắt tin, nội dung chi tiết tin Bắt đầu Chuẩn hóa tài liệu HTML Duyệt qua tất node DOM Xác định node thỏa mãn biểu thức XPath Lấy thơng tin thuộc tính Text node Lưu thơng tin Kết thúc Hình 3.2 Giải thuật hoạt động phân hệ Extractor 3.4.3 Xây dựng phân hệ xử lý liệu Phân hệ có chức xử lý tin tức thu thập nhằm mục đích phân loại chuyên mục cho tin tức Các bước xử lý bao gồm: Loại bỏ dấu câu Tách từ Tính tốn ma trận trọng số TF-IDF tập tin tức So sánh độ tương tự tin tin có sẵn chuyên mục Xác định chuyên mục cho tin cập nhật 3.4.4 Xây dựng cổng thông tn tổng hợp Các phân hệ xây dựng thành 02 module chính: Module tin tức Module chuyên mục Module tin tức có nhiệm vụ lấy hiển thị tin trang chủ, quản lý tin (sửa, xóa, duyệt tin), hiển thị theo chuyên mục, tm kiếm Module chuyên mục có chức quản lý chuyên mục (nhóm) tin, cho phép thêm, sửa, xóa nhóm tin, gán tin tải tự động vào chuyên mục hệ thống phân loại sai 3.5 Kết thử nghiệm hệ thống Chương trình cài đặt 01 máy chủ Web có kết nối mạng Các máy trạm truy cập vào hệ thống qua mạng Lan (có chứa máy chủ Web) qua Intenet Các máy có cấu hình phần mềm cần thiết sau: Bảng 3.5 Cấu hình yêu cầu máy thử nghiệm MÁY CHỦ Cấu hình Intel Core Duo 3Ghz, Ram 2G Hệ điều hành Microsoft Windows Server, Window Xp, Window7, Window8 Cơ sở liệu Microsoft SQL Server Webserver IIS Webserver ASP.NET MÁY TRẠM Hệ điều hành Window Xp, Window7, Window8 Linux Trình duyệt IE, FireFox, Chrome, Opera - Giao diện trang chủ: Hiển thị danh sách tin trang chủ, hỗ trợ hiển thị tin theo chuyên mục lựa chọn Hình 3.3 Giao diện trang chủ - Quản lý nguồn tn (kênh tn) Hình 3.4 Quản lý kênh tnh - Quản lý cập nhật tn Hình 3.5 Quản lý cập nhập tin - Quản lý chuyên mục tn Hình 3.6 Quản lý chuyên mục tin - Quản lý tn tức: Duyệt/Xuất bản, sửa, xóa tn Hình 3.7 Quản lý tn tức Đánh giá kết quả: Phân hệ Crawler Extractor hoạt động tốt theo yêu cầu đề ra, cho phép tải tin tức từ kênh cấu hình sẵn Kết bóc tác nội dung tốt, khơng có sai sót Phân hệ xử lý liệu phân loại: Kết phân loại tương đối xác, nhiên số lượng tin thử nghiệm chưa nhiều nên chưa có số liệu tỉ lệ sai sót Các phân hệ quản lý hệ thống khác vận hành theo thiết kế 3.6 Tổng kết chương Chương mô tả chức hệ thống đồng thời giới thiệu cơng cụ rút trích liệu HtmlAgiliti Pack Ngôn ngữ truy vấn Xpath, từ thực xây dựng hệ thống theo yêu cầu đề KẾT LUẬN Đề tài trình bày kiến thức tổng quan khai phá liệu, ứng dụng phân loại liệu khai phá liệu web, số thuật toán tách từ thuật toán phân loại tiếng Việt Đồng thời ứng dụng để xây dựng hệ thống tự động rút trích thơng tin từ Website khác phân loại tin tức tự động Kết đạt được: - Trình bày tổng quan khai phá liệu, khai phá web, tốn thơng dụng khai phá liệu ứng dụng - Trình bày tốn phân lớp văn bản, cách biểu diễn số vấn đề xử lý liệu văn bản, phương pháp tách từ tiếng Việt phương pháp phân loại văn - Đề xuất giải pháp kỹ thuật tổng hợp thông tin tự động internet phân loại tin thu thập Xây dựng mô hình, cài đặt thử nghiệm hệ thống Hạn chế: - Thời gian bóc tách, xử lý, phân loại tương đối chậm phải tính tốn tồn liệu - Hệ thống Crawler xây dựng đơn giản, giới hạn cấp Url Hướng phát triển: - Cải thiện chức phân hệ bóc tách liệu có độ tùy biến, linh động cao thay phải cấu hình sẵn kênh tin - Nghiên cứu giải thuật phân loại nhằm tăng cường tốc độ hệ thống độ xác việc phân loại thơng tin Mặc dù thực nội dung xây dựng thử nghiệm thành cơng luận văn nhiều thiếu sót cần bổ sung Em mong nhận ý kiến đóng góp thầy, cơ, bạn bè, đồng nghiệp để luận văn hoàn thiện TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (chủ biên) tác giả (2009), Giáo trình khai phá liệu web, Nhà xuất giáo dục [2] N.T Hùng (2006), Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia TP HCM [3] Nguyễn Văn Ba (2003), Phân tch thiết kế hệ thống thông tin, NXB Đại học Quốc gia Hà Nội [4] Đinh Điền (2004), Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa học Tự Nhiên Tp.HCM Tiếng Anh [5] Soumen Chakrabarti (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers [6] William W Cohen and Andrew McCallum (2003), Information Extraction from the World Wide Web KDD [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003), Modeling the Internet and theWeb: Probabilistic Methods and Algorithms, JohnWiley & Sons Ltd [8] David L Olson, Dursun Delen (2008), Advanced Data Mining Techniques, Springer-Verlag [9] Oded Maimon, Lior Rokach (2010), Data Mining and Knowledge Discovery Handbook, Second Edition, Springer Science + Business Media, LLC [10] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar (2009), Next Generation of Data Mining, Taylor & Francis Group, LLC [11] Le An Ha (2003), A method for word segmentation Vietnamese, Procesdding of Corpus Linguistics 2003, Lamcaster, UK ... đề tài nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động web nhằm tm hiểu phương pháp tổng hợp tin từ nhiều website tự động phân loại tin lấy Đối tượng phạm vi nghiên cứu Đối... tượng nghiên cứu: Tìm hiểu khai phá liệu web, thuật toán phân loại tài liệu ứng dụng truy xuất thông tin tự động Trên sở đó, xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Phạm vi nghiên. .. Giới thiệu tổng quan, ứng dụng khai phá liệu web, thuật toán phân loại tài liệu chế hệ thống thu thập tin Về mặt thực tiễn: Xây dựng hệ thống tổng hợp, phân loại thông tin tự động web Cho phép

Ngày đăng: 14/02/2019, 17:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hà Quang Thụy (chủ biên) và các tác giả (2009), Giáo trình khai phá dữ liệu web, Nhà xuất bản giáo dục Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữliệu web
Tác giả: Hà Quang Thụy (chủ biên) và các tác giả
Nhà XB: Nhà xuất bản giáo dục
Năm: 2009
[2] N.T. Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet, Đại học Quốc gia TP. HCM Sách, tạp chí
Tiêu đề: Hướng tiếp cận mới trong việc tách từ để phân loạivăn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet
Tác giả: N.T. Hùng
Năm: 2006
[3] Nguyễn Văn Ba (2003), Phân tch và thiết kế hệ thống thông tin, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Phân tch và thiết kế hệ thống thông tin
Tác giả: Nguyễn Văn Ba
Nhà XB: NXB Đạihọc Quốc gia Hà Nội
Năm: 2003
[4] Đinh Điền (2004), Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa học Tự Nhiên Tp.HCM.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình xử lý ngôn ngữ tự nhiên
Tác giả: Đinh Điền
Năm: 2004
[5] Soumen Chakrabarti (2003), Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Mining the Web: Discovering Knowledgefrom Hypertext Data
Tác giả: Soumen Chakrabarti
Năm: 2003
[6] William W. Cohen and Andrew McCallum (2003), Information Extraction from the World Wide Web. KDD Sách, tạp chí
Tiêu đề: Information Extractionfrom the World Wide Web
Tác giả: William W. Cohen and Andrew McCallum
Năm: 2003
[7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003), Modeling the Internet and theWeb: Probabilistic Methods and Algorithms, JohnWiley &Sons Ltd Sách, tạp chí
Tiêu đề: Modeling theInternet and theWeb: Probabilistic Methods and Algorithms
Tác giả: Pierre Baldi, Paolo Frasconi, Padhraic Smyth
Năm: 2003
[8] David L. Olson, Dursun Delen (2008), Advanced Data Mining Techniques, Springer-Verlag Sách, tạp chí
Tiêu đề: Advanced Data MiningTechniques
Tác giả: David L. Olson, Dursun Delen
Năm: 2008
[9] Oded Maimon, Lior Rokach (2010), Data Mining and Knowledge Discovery Handbook, Second Edition, Springer Science + Business Media, LLC Sách, tạp chí
Tiêu đề: Data Mining and KnowledgeDiscovery Handbook
Tác giả: Oded Maimon, Lior Rokach
Năm: 2010
[10] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar (2009), Next Generation of Data Mining, Taylor & Francis Group, LLC Sách, tạp chí
Tiêu đề: Next Generation of Data Mining
Tác giả: Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar
Năm: 2009
[11] Le An Ha (2003), A method for word segmentation Vietnamese, Procesdding of Corpus Linguistics 2003, Lamcaster, UK Sách, tạp chí
Tiêu đề: A method for word segmentation Vietnamese
Tác giả: Le An Ha
Năm: 2003

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w