Báo cáo môn hệ chuyên giahệ thống quản lý vé máy bay

27 352 0
Báo cáo môn hệ chuyên giahệ thống quản lý vé máy bay

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CÁM ƠN Chúng em xin chân thành cảm ơn Khoa Công nghệ Thông tin , trường Đại học Điện Lực tạo điều kiện thuận lợi cho chúng em học tập Chúng em xin bày tỏ lòng biết ơn sâu sắc tới thầy Nguyễn Thị Thu Hà tận tình hướng dẫn bảo chúng em trình thực tập môn hệ thống quản lý thông tin Chúng em xin chân thành cảm ơn quý thầy cô khoa Cơng nghệ Thơng tin tận tình giảng dạy, trang bị cho em kiến thức quý báu năm học Mặc dù hồn thành xong mơn cố gắng hồn thành đồ án mơn phạm vi khả cho phép chắn ko tránh khỏi thiếu sót Chúng em mong nhận thơng cảm, góp ý tận tình bảo q thầy bạn Kính chúc thầy cô sức khỏe, hạnh phúc! Hà Nội, 17 tháng 06 năm 2013 Nhóm sinh viên thực hiện: Nguyễn Nhật Hoàng Đào Văn Tuấn Đỗ Quang Huy HỆ THỐNG QUẢN LÝ VÉ MÁY BAY MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: GIỚI THIỆU HỆ CHUYÊN GIA 1.1 Hệ chuyên gia ? .2 1.2 Đặc trưng ưu điểm hệ chuyên gia 1.3 Sự phát triển công nghệ hệ chuyên gia 1.4 Các lĩnh vực ứng dụng hệ chuyên gia 1.5 Những thành phần hệ chuyên gia CHƯƠNG 2: HỆ THỐNG PHÂN LOẠI TIN TỨC 10 2.1 Giới thiệu vế phân loại tin tức .10 2.2 Cơ sở xây hệ thống phân loại tin tức 11 2.2.1 RSS 11 2.2.2 Phân loại văn 12 CHƯƠNG 3: CÀI ĐẶT HỆ THỐNG 19 3.1 Nền tảng cài đặt hệ thống 19 3.2 Cài đặt hệ thống 19 3.2.1 Module lấy tin RSS .19 3.2.2 Moudle tách từ Tokenizer .19 3.2.3 Moudle phân lớp tin tức 20 KẾT LUẬN 22 TÀI LIỆU THAM KHẢO 23 HỆ THỐNG QUẢN LÝ VÉ MÁY BAY DANH MỤC HÌNH ẢNH HỆ THỐNG QUẢN LÝ VÉ MÁY BAY DANH MỤC BẢNG BIỂU LỜI NÓI ĐẦU Cuối năm 70, số nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn tri thức, lý thuyết giải vấn đề đem lại diện mạo cho trí tuệ nhân tạo Thị trường tin học bắt đầu đón nhận sản phẩm trí tệu nhân tạo ứng dụng mang tính thương mại Đó hệ chuyên gia áp dụng lĩnh vực khác Hệ chuyên gia phần mềm máy tính, chứa thơng tin tri thức lĩnh vực cụ thể đó, có khả giải yêu cầu người dùng mức độ với trình độ chuyên gia có kinh nghiệm lâu năm Một hệ chuyên gia sử dụng thành công thực tế hệ MYCIN, thiết kế cài đặt trường Đại học Tổng Hợp Stanford Hiện sau kỷ phát triển trên, hàng loạt sản phẩm áp dụng hệ chuyên gia nhiều nhiều lĩnh vực: giáo dục, kinh tế, y tế Với sản phẩm có tính ứng dụng cao thực tế không kết ngày xác Có sản phẩm đạt đến độ xác đến 99% Trên giới, hệ chuyên gia trở thành thuật ngữ phổ biển quen thuộc với ngừoi ngành khoa hoc máy tính cơng nghệ phần mềm Tại Việt Nam biết đến hệ chuyên gia muôn với quan tâm nhiều giới chuyên môn dần bắt kịp đạt thành công định ngành Hiện với thị trường thiết bị di động ngày tăng dần thay thê may tính cơng việc cập nhật thơng tin người ngành lập trình ứng dụng hệ thông hỗ trợ mạng di đông điều kiên nở rộ Khi người chuyên sang sử dụng thiết bị di động thời gian cho việc tìm kiếm đọc thông tin giảm dần Tuy nhiên lượng thơng tin q lớn khơng ngừng biến đổi tiêu biểu tin tức điện tử, điều dẫn đến việc tím kiếm tin tức hữu ích trở nên khó khăn Chính điều chúng em định chọn đề tài xây dựng "hệ thống phân loại tin tức điện tử " Hệ thống có chức lấy thơng tin tin tức từ trang web tin tức điện tử phân tích loại bỏ cac tin tức trùng lặp phân loại theo chủ đề để dễ dàng cho ngừoi sử dụng ngồi hệ thơng cài đặt tổng đài tin nhắn hỗ trợ từ xa HỆ THỐNG PHÂN LOẠI TIN TỨC CHƯƠNG 1: GIỚI THIỆU HỆ CHUYÊN GIA 1.1 Hệ chuyên gia ? Theo E Feigenbaum : Hệ chuyên gia (Expert System) chương trình máy tính thơng minh sử dụng tri thức (knowledge) thủ tục suy luận (inference procedures) để giải tốn tương đối khó khăn đòi hỏi chuyên gia giải được[1] Hệ chuyên gia hệ thống tin học mơ (emulates) lực đốn (decision) hành động (making abilily) chuyên gia (con người) [2] Hệ chuyên gia lĩnh vực ứng dụng trí tuệ nhân tạo (Artificial Intelligence) hình Hình 1 Một số lĩnh vực ứng dụng trí tuệ nhân tạo Hệ chuyên gia sử dụng tri thức chuyên gia để giải vấn đề (bài toán) khác thuộc lĩnh vực Tri thức (knowledge) hệ chuyên gia phản ánh tinh thơng tích tụ từ sách vở, tạp chí, từ chuyên gia hay nhà bác học Các thuật ngữ hệ chuyên gia, hệ thống dựa tri thức (knowledge−based system) hay hệ chuyên gia dựa tri thức (knowledge−based expert system) thường có nghĩa Một hệ chuyên gia gồm ba thành phần sở tri thức (knowledge base), máy suy diễn hay môtơ suy diễn (inference engine), hệ thống giao tiếp với người sử dụng (user interface) Cơ sở tri thức chứa tri thức để từ đó, máy suy diễn tạo câu trả lời cho người sử dụng qua hệ thống giao tiếp HỆ THỐNG PHÂN LOẠI TIN TỨC Người sử dụng (user) cung cấp kiện (facts) biết, có thật hay thơng tin có ích cho hệ chun gia, nhận câu trả lời lời khuyên hay gợi ý đắn (expertise) Hoạt động hệ chuyên gia dựa tri thức minh họa sau : Hình Hoạt động hệ chuyên gia Mỗi hệ chuyên gia đặc trưng cho lĩnh vực vấn đề (problem domain) đó, y học, tài chính, khoa học hay cơng nghệ, v.v , mà cho lĩnh vực vấn đề Tri thức chuyên gia để giải vấn đề đặc trưng gọi lĩnh vực tri thức (knowledge domain) Hình Quan hệ lĩnh vực vấn đề lĩnh vực tri thức Ví dụ : hệ chuyên gia lĩnh vực y học để phát bệnh lây nhiễm có nhiều tri thức số triệu chứng lây bệnh, lĩnh vực tri thức y học bao gồm bệnh, triệu chứng chữa trị Chú ý lĩnh vực tri thức hoàn toàn nằm lĩnh vực vấn đề Phần bên ngồi lĩnh vực tri thức nói lên tri thức cho tất vấn đề Tùy theo yêu cầu người sử dụng mà có nhiều cách nhìn nhận khác hệ chuyên gia HỆ THỐNG PHÂN LOẠI TIN TỨC Bảng 1 Cách nhìn nhận đối tượng Loại người sử dụng Vấn đề đặt Người quản trị Tơi dùng để làm ? Kỹ thuật viên Làm cách để tơi vận hành tốt ? Nhà nghiên cứu Làm để mở rộng ? Người sử dụng cuối Nó giúp tơi ? Nó có rắc rối tốn khơng ? Nó có đáng tin cậy không ? 1.2 Đặc trưng ưu điểm hệ chuyên gia Có bốn đặc trưng hệ chuyên gia : • Hiệu cao (high performance) Khả trả lời với mức độ tinh thông cao so với chuyên gia (người) lĩnh vực • Thời gian trả lời thoả đáng (adequate response time) Thời gian trả lời hợp lý, nhanh so với chuyên gia (người) để đến định Hệ chuyên gia hệ thống thời gian thực (real time system) • Độ tin cậy cao (good reliability) Không thể xảy cố giảm sút độ tin cậy sử dụng • Dễ hiểu (understandable) Hệ chun gia giải thích bước suy luận cách dễ hiểu qn, khơng giống cách trả lời bí ẩn hộp đen (black box) Những ưu điểm hệ chuyên gia : • Phổ cập (increased availability) Là sản phẩm chuyên gia, phát triển không ngừng với hiệu sử dụng khơng thể phủ nhận • Giảm giá thành (reduced cost) • Giảm rủi ro (reduced dangers) Giúp người tránh môi trường rủi ro, nguy hiểm • Tính thường trực (Permanance) Bất kể lúc khai thác sử dụng, người mệt mỏi, nghỉ ngơi hay vắng mặt • Đa lĩnh vực (multiple expertise) chuyên gia nhiều lĩnh vực khác khai thác đồng thời thời gian sử dụng • Độ tin cậy (increased relialility) Luôn đảm bảo độ tin cậy khai thác HỆ THỐNG PHÂN LOẠI TIN TỨC • Khả giảng giải (explanation) Câu trả lời với mức độ tinh thông giảng giải rõ ràng chi tiết, dễ hiểu • Khả trả lời (fast reponse) Trả lời theo thời gian thực, khách quan • Tính ổn định, suy luận có lý đầy đủ lúc nơi (steady, une motional, and complete response at all times) • Trợ giúp thơng minh người hướng dẫn (intelligent -tutor) • Có thể truy cập sở liệu thông minh (intelligent database) 1.3 Sự phát triển công nghệ hệ chuyên gia Sau số kiện quan trọng lịch sử phát triển công nghệ hệ chuyên gia (expert system technology) Bảng Các mốc phát triển hệ chuyên gia[3] Năm Các kiện 1943 Dịch vụ bưu điện ; mơ hình Neuron (Mc Culloch and Pitts Model) 1954 Thuật toán Markov (Markov Algorithm) điều khiển thực thi luật 1956 Hội thảo Dartmouth ; lý luận logic ; tìm kiếm nghiệm suy (heuristic search) ; thống thuật ngữ trí tuệ nhân tạo (AI: Artificial Intelligence) 1957 Rosenblatt phát minh khả nhận thức ; Newell, Shaw Simon đề xuất giải toán tổng quát (GPS: General Problem Solver) 1958 Mc Carthy đề xuất ngơn ngữ trí tuệ nhân tạo LISA (LISA AI language) 1962 Nguyên lý Rosenblatt’s chức thần kinh nhận thức (Rosenblatt’s Principles of Neurodynamicdynamics on Perceptions) 1965 Phương pháp hợp giải Robinson Ưng dụng logic mờ (fuzzy logic) suy luận đối tượng mờ (fuzzy object) Zadeh Xây dựng hệ chuyên gia nha khoa DENDRAL (Feigenbaum , Buchanan , et.al) 1968 Mạng ngữ nghĩa (semantic nets), mơ hình nhớ kết hợp (associative memory model) Quillian 1969 Hệ chuyên gia Tốn học MACSYMA (Martin and Moses) 1970 Ứng dụng ngơn ngữ PROLOG (Colmerauer, Roussell, et, al.) 1971 Hệ chuyên gia HEARSAY I nhận dạng tiếng nói (speech recognition) Xây dựng luật giải toán người (Human Problem Solving popularizes rules (Newell and Simon) 1973 Hệ chuyên gia MYCIN chẩn trị y học (Shortliffe, et,al.) 1975 Lý thuyết khung (frames), biểu diễn tri thức (knowledge representation) (Minsky) 1976 Toán nhân tạo (AM: Artificial Mathematician) (Lenat) Lý thuyết HỆ THỐNG PHÂN LOẠI TIN TỨC Dempster−Shafer tính hiển nhiên lập luận không chắn (Dempster−Shafer theory of Evidence for reason under uncertainty) Ứng dụng hệ chuyên gia PROSPECTOR khai thác hầm mỏ (Duda, Har) 1977 Sử dụng ngôn ngữ chuyên gia OPS (OPS expert system shell) hệ chuyên gia XCON/R1 (Forgy) 1978 Hệ chuyên gia XCON/R1 (McDermott, DEC) để bảo trì hệ thống máy tính DEC (DEC computer systems) 1979 Thuật tốn mạng so khớp nhanh (rete algorithm for fast pattern matching) Forgy ; thương mại hố ứng dụng trí tuệ nhân tạo 1980 Ký hiệu học (symbolics), xây dựng máy LISP (LISP machines) từ LMI 1982 Hệ chuyên gia Toán học (SMP math expert system) ; mạng nơ-ron Hopfield (Hopfield Neural Net) ; Dự án xây dựng máy tính thơng minh hệ Nhật (Japanese Fifth Generation Project to develop intelligent computers) 1983 Bộ công cụ phục vụ hệ chuyên gia KEE (KEE expert system tool) (intelli Corp) 1985 Bộ công cụ phục vụ hệ chuyên gia CLIPS(CLIPS expert system tool (NASA) 1.4 Các lĩnh vực ứng dụng hệ chuyên gia Cho đến nay, hàng trăm hệ chuyên gia xây dựng báo cáo thường xuyên tạp chí, sách, báo hội thảo khoa học Ngồi hệ chuyên gia sử dụng công ty, tổ chức quân mà không cơng bố lý bảo mật Bảng Bảng liệt kê số lĩnh vực ứng dụng hệ chuyên gia Lĩnh vực Ứng dụng diện rộng Cấu hình (Configuration) Tập hợp thích đáng thành phần hệ thống theocách riêng Chẩn đoán (Diagnosis) Lập luận dựa chứng quan sát Truyền đạt (Instruction) Dạy học kiểu thông minh cho sinh viên hỏi (why?), (how?) (what if?) giống hỏi người thầy giáo HỆ THỐNG PHÂN LOẠI TIN TỨC Cơ sở tri thức gọi nhớ sản xuất (production memeory) hệ chuyên gia Trong sở tri thức, người ta thường phân biệt hai loại tri thức tri thức phán đoán (assertion knowledge) tri thức thực hành (operating knowledge) Các tri thức phán đốn mơ tả tình thiết lập thiết lập Các tri thức thực hành thể hậu rút hay thao tác cần phải hồn thiện tình thiết lập thiết lập lĩnh vực xét Các tri thức thực hành thường thể biểu thức dễ hiểu dễ triển khai thao tác người sử dụng Hình Quan hệ máy suy diễn sở tri thức Từ việc phân biệt hai loại tri thức, người ta nói máy suy diễn công cụ triển khai chế (hay kỹ thuật) tổng quát để tổ hợp tri thức phán đoán tri thức thực hành Hình mơ tả quan hệ hữu máy suy diễn sở tri thức HỆ THỐNG PHÂN LOẠI TIN TỨC CHƯƠNG 2: HỆ THỐNG PHÂN LOẠI TIN TỨC 2.1 Giới thiệu vế phân loại tin tức Cùng với phát triển công nghệ thông tin lượng thông tin trao đổi mạng Internet ngày lớn đặc biệt tin tức điện tử với hàng trăm trang web tin tức đời cung với số lượng tin tức ngày đăng tải gọi vơ Việc đọc tin tức trở nên khó khăn nhàn chán cho người dùng đa dạng trung lặp tin tức trang web Từ tồn lọc tin tức đặt để hỗ trỡ người dùng internet Xét mặt xem tốn lọc tin tức ứng dụng thực tế toán phân loại văn Phân loại văn toán xử lí văn cổ điển, ánh xạ văn vào chủ đề biết tập hữu hạn chủ đề dựa ngữ nghĩa văn Ví dụ viết tờ báo thuộc (hoặc vài) chủ đề (như thể thao, sức khỏe, cơng nghệ thông tin,…) Việc tự động phân loại văn vào chủ đề giúp cho việc xếp, lưu trữ truy vấn tài liệu dễ dàng sau Đặc điểm bật toán đa dạng chủ đề văn tính đa chủ đề văn Tính đa chủ đề văn làm cho phân loại mang tính tương đối có phần chủ quan, người thực hiện, dễ bị nhập nhằng phân loại tự động Rõ ràng viết Giáo dục xếp vào Kinh tế viết bàn tiền nong đầu tư cho giáo dục tác động đầu tư đến kinh tế - xã hội Về chất, văn tập hợp từ ngữ có liên quan với tạo nên nội dung ngữ nghĩa văn Từ ngữ văn đa dạng tính đa dạng ngơn ngữ (đồng nghĩa, đa nghĩa, từ vay mượn nước ngoài,…) số lượng từ cần xét lớn Ở cần lưu ý rằng, văn có số lượng từ ngữ không nhiều, số lượng từ ngữ cần xét nhiều phải bao hàm tất từ ngôn ngữ xét Do đặc điểm việc xử lý từ văn trước phân loại trở nên quan trọng, tăng độ xác q trình phân loại Trên giới có nhiều cơng trình nghiên cứu đạt kết khả quan, phân loại văn tiếng Anh Tuy vậy, nghiên cứu ứng dụng văn tiếng Việt nhiều hạn chế khó khăn tách từ câu Có thể liệt kê số cơng trình nghiên cứu nước với hướng tiếp cận khác cho toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ [4], cách tiếp cận sử dụng lý thuyết tập thô [5], cách tiếp cận thống kê hình vị [6], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [7], cách tiếp cận theo luật kết hợp [8] 10 HỆ THỐNG PHÂN LOẠI TIN TỨC 2.2 Cơ sở xây hệ thống phân loại tin tức Với đặc điểm việc xây dựng hệ thống dựa hai tảng • RSS • Phân loại văn 2.2.1 RSS RSS định dạng tập tin thuộc họ XML dùng việc chia sẻ tin tức Web (Web syndication) dùng nhiều website tin tức weblog[9] Chữ viết tắt (theo tiếng Anh) dùng để chuẩn sau: • Rich Site Summary (RSS 0.91) • RDF Site Summary (RSS 0.9 and 1.0) • Really Simple Syndication (RSS 2.0.0) Công nghệ RSS cho phép người dùng Internet đặt mua thơng tin từ websites có cung cấp khả RSS (RSS feeds); chúng thường site có nội dung thay đổi thêm vào thường xun Để dùng cơng nghệ này, người quản trị site tạo hay quản lí phần mềm chuyên dụng (như hệ thống quản lí nội dung - content management system-CMS) mà, với định dạng XML mà máy đọc được, biểu diễn tin thành danh sách, với hai dòng cho tin liên kết đến tin đầy đủ Khác với việc mua nhiều ấn tờ báo hay tạp chí in giấy, hầu hết việc mua RSS miễn phí Định dạng RSS cung cấp nội dung web tóm lược nội dụng web với liên kết đến phiên đầy đủ nội dung tin đó, siêu-dữ-liệu (meta-data) khác Thơng tin cung cấp dạng tập tin XML gọi RSS feed, webfeed, RSS stream, hay RSS channel Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép độc giả thường xuyên website theo dõi cập nhật site dùng aggregator RSS dùng phổ biến cộng đồng weblog để chia sẻ tiêu đề tin tức hay toàn nội dung nó, tập tin đa phương tiện đính kèm (Xem podcasting, vodcasting, broadcasting, screencasting, Vloging, MP3 blogs.) Vào năm 2000, việc sử dụng RSS trở nên phổ dụng hãng tin tức lớn, bao gồm Reuters, CNN, BBC Những nhà cung cấp tin cho phép website khác tổng hợp tiêu đề tin tức "được chia sẻ" hay cung cấp tóm tắt ngắn gọn tin nhiều hình thức thỏa hiệp khác RSS ngày dùng cho nhiều mục đích, bao gồm tiếp thị, báo cáo lỗi (bug-reports), hay hoạt động khác bao gồm cập nhật hay xuất định kì 11 HỆ THỐNG PHÂN LOẠI TIN TỨC Một chương trình gọi feed reader hay aggregator kiểm tra xem website có hỗ trợ RSS cho người dùng khơng và, có, hiển thị viết cập nhật mà tìm thấy từ website Ngày tìm thấy RSS feeds nhiều Web sites lớn, nhiều site nhỏ Các cơng cụ đọc tin phía trình khách công cụ aggregators thường xây dựng thành chương trình độc lập phần mở rộng chương trình có sẵn trình duyệt web Những chương trình có mặt nhiều hệ điều hành khác Xem danh sách aggregators chuyên tin tức Các phần mềm thu thập tin tức khơng địi hỏi phải cài đặt sử dụng máy tính có kết nối Internet Một số aggregators kết hợp khả chia sẻ tin tức, ví dụ: lấy thơng tin bóng đá từ nhiều nguồn tin cung cấp thành nguồn tin Đây động tìm kiếm nội dung đăng tải thông qua RSS feeds Feedster hay Blogdigger Việc xây dựng module lấy tin RSS để xây dưng nên hệ thống phân lạo tin tức 2.2.2 Phân loại văn Việc phân loại tin chia làm hai bước: • Tiền xử lý • Phân lớp 2.2.2.1Tiền Xử lý Ở bước này, văn qua bước tiền xử lí bản: chuẩn hóa dấu, chuẩn hóa “i” “y”, chuẩn hóa font,… sau thực tách từ Trong phần bước xử lý không đề mà trực tiếp vào tách từ Có thể xem văn tập hợp từ Khái niệm “từ” theo nghĩa chuỗi kí tự liên tiếp văn bản, khơng thiết phải từ có nghĩa ngôn ngữ Việc xác định “từ” hay tách từ thực giải thuật Sau tách từ, văn xem tập hợp “từ” Chữ từ dấu ngoặc từ sinh giải thuật tách từ, khơng thiết phải có nghĩa ngơn ngữ Ví dụ giải thuật MMSEG [10] giải thuật “từ” tách có nghĩa (có từ điển), nhiên khơng thiết phải hồn toàn ngữ cảnh văn (ngữ nghĩa) 12 HỆ THỐNG PHÂN LOẠI TIN TỨC Hình Ví dụ tách từ với giải thuật MMSEG Rõ ràng rằng, từ văn có mức độ quan trọng khác văn phân loại văn Một số từ từ nối, từ số lượng (“và”, “các”, “những, “mỗi”,…) không mang tính phân biệt phân loại Ngồi ra, cịn có nhiều từ khác khơng có giá trị phân loại ví dụ từ xuất hầu khắp văn hay dùng không phổ biến văn bản, từ gọi stopword cần loại bỏ Có nhiều cách loại bỏ stopword, chẳng hạn dùng danh sách stopword loại bỏ theo tần suất xuất từ (chỉ số TF*IDF) Trong thực nghiệm dùng danh sách stopword kết hợp với việc loại bỏ từ có số TF*IDF thấp Chỉ số TF*IDF thấp tức từ xuất hầu khắp băn từ xuất Sau loại bỏ stopword, văn xem tập hợp đặc trưng, tập hợp từ “quan trọng” cịn lại để biểu diễn văn Việc phân loại văn dựa đặc trưng Tuy nhiên, thấy rằng, số đặc trưng văn lớn không gian đặc trưng (tất đặc trưng) tất văn xem xét lớn, nguyên tắc, bao gồm tất từ ngơn ngữ Chính vậy, phân loại dựa đặc trưng cần phải có cách xử lí, lựa chọn đặc trưng nhằm rút ngắn số chiều không gian đặc trưng Trên thực tế, người ta xét tất từ ngôn ngữ mà dùng tập hợp từ rút từ tập (đủ lớn) văn xét (gọi tập ngữ liệu) Kế đến, văn di tập ngữ liệu xét mơ hình hóa vector trọng số đặc trưng, di(wi1,…,wim) 13 HỆ THỐNG PHÂN LOẠI TIN TỨC 2.2.2.2 Phân lớp Có nhiều phương pháp để thực phân lớp giới hạn kiến thức chúng em giới thiệu mợt số phương pháp phổ biến Naive Bayes Naive Bayes (Bayes ngây thơ) phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học nhiều lĩnh vực khác cơng cụ tìm kiếm , lọc mail … Ý tưởng cách tiếp cận sử dụng xác suất có điều kiện từ cụm từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại.Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Như NB không tận dụng phụ thuộc nhiều từ vào chủ đề cụ thể Chính giả định làm cho việc tính tốn NB hiệu qủa nhanh chóng phương pháp khác với độ phức tạp theo số mũ khơng sử dụng cách kết hợp từ để đưa phán đoán chủ đề Mục đích tính xác suất Pr(C j, d’) , xác suất để văn d’nằm lớp Cj.Theo luật Bayes , văn d’ gán vào lớp C j có xác suất Pr(Cj, d’) cao Cơng thức để tính Pr(Cj, d’) sau : Với : - TF(wi, d’) số lần xuất từ wi văn d’ - |d’| số lượng từ văn d’ - wi từ không gian đặc trưng F với số chiều |F| - Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp tương ứng 14 HỆ THỐNG PHÂN LOẠI TIN TỨC tập liệu huấn luyện Ngoài cịn có phương pháp NB khác kể ML Naïve Bayes , MAP Naïve Bayes , Expected Nạve Bayes Nói chung Nạve Bayes công cụ hiệu qủa số trường hợp Kết qủa xấu liệu huấn luyện nghèo nàn tham số dự đoán (như khơng gian đặc trưng) có chất lượng kém.Nhìn chung thuật tốn phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản , tốc độ thực thuật toán nhanh , dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện K-Nearest Neighbor (K-NN) K-Nearest Neighbor phương pháp truyền thống tiếng theo hướng tiếp cận thống kê nghiên cứu nhiều năm qua kNN đánh giá phương pháp tốt sử dụng từ thời kỳ đầu nghiên cứu phân loại văn Ý tưởng phương pháp cần phân loại văn , thuật tốn xác định khoảng cách (có thể áp dụng công thức khoảng cách Euclide , Cosine , Manhattan , …) tất văn tập huấn luyện đến văn để tìm k văn gần ,gọi k nearest neighbor – k láng giềng gần , sau dùng khoảng cách đánh trọng số cho tất chủ đề Khi , trọng số chủ đề tổng tất khoảng cách văn k láng giềng có chủ đề , chủ đề khơng xuất k láng giềng có trọng số Sau chủ đề xếp theo giá trị trọng số giảm dần chủ đề có trọng số cao chọn làm chủ đề văn cần phân loại 15 HỆ THỐNG PHÂN LOẠI TIN TỨC Phương pháp định Phương pháp định [8] áp dụng vào toán phân loại văn Dựa vào tập văn huấn luyện (sau gọi tắt tập huấn luyện), xây dựng định Cây định có dạng nhị phân, nút tương ứng với việc phân hoạch tập văn dựa thuộc tính (một từ) Việc xây dựng định phụ thuộc vào việc lựa chọn thuộc tính để phân hoạch Theo [11], chúng tơi lựa chọn thuộc tính phân hoạch dựa độ lợi thơng tin (information gain) lớn nhất, hiệu độ hỗn loạn thông tin trước sau phân hoạch với thuộc tính Độ lợi thơng tin tính tốn dựa vào độ hỗn loạn thơng tin (Entropy) theo CT 2.4 Giả sử tập huấn luyện S chứa văn thuộc k chủ đề, độ hỗn loạn thông tin tập S là: Trong pi xác suất để phần tử (1 văn bản) thuộc vào chủ đề thứ i pi tần suất xuất văn thuộc chủ đề thứ i tập S Độ lợi thông tin dùng thuộc tính a phân hoạch tập S thành tập tùy theo giá trị a (kí hiệu Values(a) cơng thức) : • Đầu vào: Tập M chứa tất văn huấn luyện mơ hình hóa thành vector di(wi1,…,wim) - Tập A chứa tất từ tập huấn luyện M - Một tập chủ đề C • Đầu : Cây định dạng nhị phân cho việc phân loại theo tập chủ đề C Giải thuật (tham khảo [12]): - Bắt đầu: nút gốc chứa tất văn huấn luyện - Nếu liệu nút thuộc chủ đề (1 lớp) nút nút gán nhãn chủ đề - Nếu nút chứa liệu không (thuộc lớp khác nhau) lựa chọn thuộc tính phân hoạch với độ lợi thông tin lớn (giả sử thuộc tính a với giá trị y, y gọi giá trị phân tách); phân chia nút cách đệ qui làm hai tập M1, M2; M1 chứa văn chứa a giá trị thuộc tính nhỏ y, M2 chứa văn chứa a giá trị thuộc tính lớn y 16 HỆ THỐNG PHÂN LOẠI TIN TỨC Giải thuật dừng tất nút gán nhãn Trong ứng dụng, người tacó thể khơng tiến hành phân hoạch nút đến liệu đồng (chỉ thuộc lớp) mà người ta dừng phân hoạch số phần tử nút cịn số lượng gán nhãn nút theo luật bình chọn số đông phần tử chứa nút Điều nhằm cải tiến tốc độ xây dựng tránh tình trạng học vẹt Phương pháp máy học vectơ hỗ trợ (SVM) Hình 2 Ví dụ siêu phẳng với lề cực đại R2 Máy học véctơ hỗ trợ (SVM) giải thuật máy học dựa lý thuyết học thống kê Vapnik Chervonenkis xây dựng [13] Bài toán SVM toán phân loại hai lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp kí hiệu +1 –1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng Hình cho minh họa phân lớp với SVM mặt phẳng Xét tập liệu mẫu tách rời tuyến tính {(x1,y1),(x2,y2), ,(xn,yn)} với xi ε Rd yi ε {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn Tức là, cần tìm siêu phẳng H: y = w.x + b = hai siêu phẳng H1, H2 hỗ trợ song song với H có khoảng cách đến H Với điều kiện khơng có phần tử tập mẫu nằm H1 H2, đó: w.x + b >= +1 với y = +1 w.x + b >= -1 với y = -1 Kết hợp hai điều kiện ta có y(w.x + b) >= Khoảng cách siêu phẳng H1 H2 đến H Ta cần tìm siêu phẳng H với lề lớn nhất, tức giải toán tối ưu tìm với ràng buộc y(w.x + b) >= Người ta chuyển tốn sang tốn tương đương dễ giải 17 HỆ THỐNG PHÂN LOẠI TIN TỨC với ràng buộc y(w.x + b) >= Lời giải cho toán tối ưu cực tiểu hóa hàm Lagrange: Trong α hệ số Lagrange, α≥0 Sau người ta chuyển thành tốn đối ngẫu cực đại hóa hàm W(α): Từ giải để tìm giá trị tối ưu cho w,b α Về sau, việc phân loại mẫu việc kiểm tra hàm dấu sign(wx +b) Lời giải tìm siêu phẳng tối ưu mở rộng trường hợp liệu khơng thể tách rời tuyến tính cách ánh xạ liệu vào khơng gian có số chiều lớn cách sử dụng hàm nhân K (kernel) Một số hàm nhân thường dùng cho bảng Bảng Một số hàm nhân thường dùng 18 HỆ THỐNG PHÂN LOẠI TIN TỨC CHƯƠNG 3: CÀI ĐẶT HỆ THỐNG 3.1 Nền tảng cài đặt hệ thống Hệ thơng lập trình ngơn ngữ Java sử dung hệ quản trị sở liệu SQL Server MySQL chạy dược tất nên Window, Linus,Android, Nếu cài đặt thêm thêm hệ thơng chạy tổng đài: nhận tin nhắn yêu cầu gửi trả tin theo yêu cầu Việc cài đặt hệ thống chia làm ba module chính: - Module lấy tin RSS - Moudle tách từ Tokenizer - Moudle phân lớp tin tức 3.2 Cài đặt hệ thống 3.2.1 Module lấy tin RSS Trình bày chương trình 3.2.2 Moudle tách từ Tokenizer Bộ tách từ sử dụng chương trình mã nguồn mở vnTokenizer 4.1.1c vnTokenizer Sử dụng kết hợp từ điển ngram, mơ hình ngram huấn luyện sử dụng treebank tiếng Việt (70,000 câu tách từ) Cùng với từ điển Tiếng Việt bao gồm: • Khoảng 35.000 từ, với thơng tin hình thái, ngữ pháp, ngữ nghĩa dùng cho xử lý ngơn ngữ tự nhiên; • Chứa đựng đủ lớp từ thông dụng tiếng Việt đại; • Mơ hình từ điển theo chuẩn quốc tế nhằm sử dụng/trao đổi nhiều hệ thống, thuận tiện cho nghiên cứu đối sánh ngôn ngữ, dễ cập nhật cần thiết; • Mã hố chuẩn XML Độ xác chương trình lên tới 97% 19 HỆ THỐNG PHÂN LOẠI TIN TỨC Chương trinh sản phẩm của nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) Các sản phẩm trình diễn bao gồm: • SP7.2: Từ điển tiếng Việt dùng cho xử lí ngơn ngữ tự nhiên Thực hiện: Vũ Xuân Lương, Hồ Tú Bảo, Nguyễn Thị Minh Huyền • SP7.3: Kho ngữ liệu câu tiếng Việt có giải Thực hiện: Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền • SP7.4: Hai kho ngữ liệu câu Anh-Việt phổ quát-chuyên ngành Thực hiện: Hồ Bảo Quốc, Cao Hồng Trụ • SP8.2: Hệ phân đoạn từ tiếng Việt Thực hiện: Nguyễn Thị Minh Huyền, Hồ Bảo Quốc • SP8.3: Hệ phân loại từ tiếng Việt Thực hiện: Phan Xn Hiếu, Lê Minh Hồng • SP8.4: Hệ phân cụm từ tiếng Việt Thực hiện: Nguyễn Lê Minh, Cao Hồng Trụ • SP8.5: Hệ phân tích câu tiếng Việt Thực hiện: Lê Thanh Hương, Nguyễn Phương Thái 3.2.3 Moudle phân lớp tin tức Phần phân lớp sử dụng phương pháp Bayes Đầu vào: • Vector đặc trưng văn cần phân lớp • Các giá trị xác suất Đầu ra: • Nhãn/lớp văn cần phân loại 20 HỆ THỐNG PHÂN LOẠI TIN TỨC Cơng thức tính xác suất thuộc phân lớp i biết trước mẫu X Dựa vào vector đặc trưng văn cần phân lớp, áp dụng công thức tính xác suất thuộc phân lớp cho văn bản, chọn lớp có xác suất cao 21 HỆ THỐNG PHÂN LOẠI TIN TỨC KẾT LUẬN Dù cố gắng tìm hiểu đề tài , kiến thức cịn có phần hạn chế nên khơng tránh khỏi sai sót Chúng em mong nhận ý kiến đóng góp thầy , bạn bè lớp để hồn thiện , làm sản phẩm tốt Bài tập lớn chúng em đạt yêu cầu ,và đạt mục tiêu bản: • Xây dựng hệ thống phân loaij tin tức đa • Áp dụng kiến thức học môn hệ chuyên gia vào xây dựng tách từ tiếng việt từ tạo điều kiên cho việc nâmh cao hiệu cho việc phân loại • Hệ thống cài đặt xong có tính thực tiễn cao tạo điều kiện xây dựng ứng dụng sau Bên cạnh chúng em số mặt hạn chế : • Sản phẩm cịn đơn giản, dù hỗ trợ từ việc tách từ CSDl nghèo nàn thuật toán phân lớp lỗi thời độ xác khơng cao • Do kiến thức điều kiện có hạn hệ thống dừng kại mức độ phần mềm, điều kiện chạy tổng đài tin nhắn 22 HỆ THỐNG PHÂN LOẠI TIN TỨC TÀI LIỆU THAM KHẢO [1] Joseph Giarratano, Gart Riley, Expert System Principles and Programming PWS Publishing Company, 1993 [2] Đỗ Trung Tuấn Hệ chuyên gia Nhà Xuất Giáo dục, 1999 [3] James L Crowley Systèmes Experts Support de cours, ENSIMAG 1999 [4] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 [5] Nguyễn Ngọc Bình, “Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 [6] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Cơng nghệ Thơng tin Viễn thơng, Tạp chí Bưu Viễn thơng, số 1, tháng 7-1999, trang 61-67 1999 [7] Huỳnh Quyết Thắng, Đinh Thị Thu Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [8] Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào tốn phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 [9] http://vi.wikipedia.org/wiki/RSS_(định _dạng_tệp tin) [10] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm http://technology.chtsai.org/MMSEG/, 2000 [11] Quinlan J., C4.5: Programs for Machine Learning, Morgan Kaufman Publishers,1993 [12] Đỗ Thanh Nghị, Khai mỏ liệu – minh họa ngôn ngữ R (chương 4), NXB Đại học Cần Thơ, 2010 [13] V.Vapnik The Nature of Statistical Learning Theory Springer, NewYork, 1995 23 ... 23 HỆ THỐNG QUẢN LÝ VÉ MÁY BAY DANH MỤC HÌNH ẢNH HỆ THỐNG QUẢN LÝ VÉ MÁY BAY DANH MỤC BẢNG BIỂU LỜI NÓI ĐẦU Cuối năm 70, số nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn tri thức, lý. ..HỆ THỐNG QUẢN LÝ VÉ MÁY BAY MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: GIỚI THIỆU HỆ CHUYÊN GIA 1.1 Hệ chuyên gia ? .2 1.2 Đặc trưng ưu điểm hệ chuyên gia ... gia 1.3 Sự phát triển công nghệ hệ chuyên gia 1.4 Các lĩnh vực ứng dụng hệ chuyên gia 1.5 Những thành phần hệ chuyên gia CHƯƠNG 2: HỆ THỐNG PHÂN LOẠI TIN TỨC 10

Ngày đăng: 02/07/2015, 16:50

Mục lục

  • LỜI NÓI ĐẦU

  • CHƯƠNG 1: GIỚI THIỆU HỆ CHUYÊN GIA

    • 1.1 Hệ chuyên gia là gì ?

    • 1.2 Đặc trưng và ưu điểm của hệ chuyên gia

    • 1.3 Sự phát triển của công nghệ hệ chuyên gia

    • 1.4 Các lĩnh vực ứng dụng của hệ chuyên gia

    • 1.5 Những thành phần cơ bản của một hệ chuyên gia

    • CHƯƠNG 2: HỆ THỐNG PHÂN LOẠI TIN TỨC

      • 2.1 Giới thiệu vế phân loại tin tức

      • 2.2 Cơ sở xây hệ thống phân loại tin tức

        • 2.2.1 RSS

        • 2.2.2 Phân loại văn bản

          • 2.2.2.1Tiền Xử lý

          • 2.2.2.2 Phân lớp

          • CHƯƠNG 3: CÀI ĐẶT HỆ THỐNG

            • 3.1 Nền tảng cài đặt hệ thống

            • 3.2 Cài đặt hệ thống

              • 3.2.1 Module lấy tin RSS

              • 3.2.2 Moudle tách từ Tokenizer

              • 3.2.3 Moudle phân lớp tin tức

              • KẾT LUẬN

              • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan