Các thuật toán gom cụm (clustering) và ứng dụng

16 312 0
Các thuật toán gom cụm (clustering) và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Code: Tờn ti: Cỏc thut toỏn gom cm (clustering) v ng dng Gii thiu: Gom cm l s phõn lp "t nhiờn" cỏc d liu Gom cm d liu cú th c dựng h tr ngi vic tỡm cỏc quy tc, quy lut Mc tiờu: - Nghiờn cu cỏc gii thut gom cm - Xõy dng b cụng c clustering da trờn mt vi gii thut - Nghiờn cu, phõn tớch kt qu ca b cụng c trờn mt s d liu mu Yờu cu: - Ting Anh: c hiu tt - Say mờ nghiờn cu, hc hi, cú kh nng t nghiờn cu tt - K nng lp trỡnh tt (C, C++, Java) S lng sinh viờn: - Ti liu tham kho: - A.K JAIN, M.N MURTY, P.J FLYNN - Data Clustering: A review - Pavel BERKHIN Survey of Clustering Data Mining Techniques Giỏo viờn hng dn: Phm Gia Tin e-mail: pgtien@cit.ctu.edu.vn Code: Tờn ti: Chn c im cho phõn lp õm Gii thiu: Phõn lp l quỏ trỡnh nhúm cỏc d liu da trờn cỏc im c trng (c im feature) Vic chn c im cho cỏc d liu phc (õm thanh, hỡnh nh, ) gi mt vai trũ quan trng ti hng vo vic chn cỏc c im cho d liu õm Mc tiờu: - Nghiờn cu tng quan v phõn lp - Nghiờn cu tng quan v chn c im - Chn cỏc c im cho d liu õm thanh, ỏnh giỏ trờn d liu ging núi Yờu cu: - Ting Anh: c hiu tt - Say mờ nghiờn cu, hc hi, cú kh nng t nghiờn cu tt - K nng lp trỡnh tt (C, C++, Java) S lng sinh viờn: - Ti liu tham kho: - Luigi Portinale, Lorenza Saita Feature Selection , Giỏo viờn hng dn: Phm Gia Tin e-mail: pgtien@cit.ctu.edu.vn Mó s ti: LVTN Tờn ti: TèM HIU MễI TRNG LP TRèNH SQUEAK VN DNG: XY DNG BN 3D CHO H CN TH Loi ti: Lp trỡnh a phng tin Giỏo viờn hng dn: ThS Nguyn Cụng Huy (Email: nchuy@cit.ctu.edu.vn) B mụn H Thng Mỏy Tớnh v Truyn Thụng S lng sinh viờn tham gia: sinh viờn t : Squeak l mt mụi trng lp trỡnh mnh, hin i, mó ngun m v a nn Squeak bao gm mỏy o v cỏc cụng c phõn tớch, sa li v phỏt trin ng dng s dng ngụn ng Smalltalk Cú rt nhiu nhng project xõy dng trờn Squeak t ng dng a phng tin, ng dng cho giỏo dc v cỏc ng dng web thng mi Squeak bao gm rt nhiu nhng gúi lp trỡnh h tr lp trỡnh multimedia (x lý 2D, 3D, õm thanh, hỡnh nh, video, ) Cỏc nh phỏt trin ó xõy dng cỏc cụng c t Squeak s dng cho d ỏn Mi laptop cho mi tr em v nht l thit k cỏc game 3D Yờu cu ca ti: * Yờu cu v lý thuyt: - Tỡm hiu ngụn ng Smalltalk v Squeak - Tỡm hiu cỏch thc xõy dng ng dng s dng Squeak - Khai thỏc Croquet l nn mó ngun m h tr lp trỡnh 3D * Yờu cu v chng trỡnh: - Xõy dng bn dng 3D cho khuụn viờn i hc Cn Th ng dng phi cú chc nng h tr ngi dựng tỡm ng i n a im no ú trờn bn - Giao din thit k phi thõn thin vi ngi s dng - Mụi trng v ngụn ng lp trỡnh: Squeak * Yờu cu v sinh viờn: - Cú kin thc v lp trỡnh hng i tng v ngụn ng Smalltalk - Cú kh nng c hiu ti liu ting Anh - Cú kh nng lm vic c lp, c bit xõy dng ý tng v thit k CT Ti liu tham kho - [1] http://www.squeak.org - [2] Andrew Black, Stộphane Ducasse, Oscar Nierstrasz, Squeak by example, 2007 - [3] Case Studies Summer in 2002 of CS2340 course, College of Computing, Georgia Institute of Technology, http://coweb.cc.gatech.edu/cs2340/17 LUN VN TT NGHIP I HC K29 Tờn ti: Semantic Web v S dng cỏc cụng ngh ng ngha thc hin pha trn v iu khin cỏc dch v, thụng tin v trỡnh by thụng tin Loi ti: Web service, Semantic Web, lm vic theo nhúm Giỏo viờn hng dn: Phan Thng Cang S lng sinh viờn tham gia: sinh viờn (cú im trung bỡnh trờn 7.2) Yờu cu ca ti Túm tt bi toỏn, kh nng ng dng HTML v Web ó to nờn kho d liu khng l m mỏy tớnh cú th c c nhng khụng th hiu c V Semantic Web l Web m ú nú cú th mụ t mi th theo mt kiu cỏch m mỏy tớnh cú th hiu c ỏp ng vi nhng ũi hi ngy cng cao t ngi dựng Chng hn, chỳng ta mun tỡm kim mt quyn sỏch ca tỏc gi Washington, trờn trang Google hay Yahoo ta tỡm kim vi t khúa l Washington thỡ chỳng s hin th tt c cỏc liờn kt n cú th nh: cỏc ca hiu sỏch trc tuyn (online bookstore) Washington, th ụ Washington, nhõn vt Washington, trng i hc Washington m khụng th ỏp ng chớnh xỏc vi nhng gỡ mong mun t ngi dựng Minh ha: Vỡ vy chỳng ta cn to mt ng dng mashup m nú thc hin vic kt hp v pha trn d liu t nhiu dch v (multiple services) to mt th mi hn, ri sau ú ngi dựng cú th chn la trờn d liu mi ú ỏp ng vi mong mun ca mỡnh Vi nhng ng dng dch v n l (single-service applications) hin l cha ỏp ng c vi nhng ũi hi trờn m ũi hi chỳng ta cn phi s dng cỏc cụng ngh web ng ngha pha trn (mashup) v iu khin cỏc dch v, thụng tin, v trỡnh by thụng tin ti ny s tun t thc hin nhng bc tip cn sau: o Xõy dng mt ng dng mashup: s dng v kt hp cỏc dch v Web o Qun lý vựng tr d liu kt hp (mashup data cache): lu li nhng kt qu ca nhng ũi hi trc ú dựng cho nhng ũi hi sau (s dng pureXML v c s d liu DB2 ci tin vic thc thi) o Tng cng kh nng thụng minh cho ng dng mashup (s chn la t ng gia cỏc dch v v cỏc thnh phn ca dch v, s chuyn i t dch v ny sang dch v khỏc m khụng cn bit chớnh xỏc thụng tin hin cú nh th no) : s dng cỏc cụng ngh web ng ngha nh RDF (Resource Description Framework), RDFs (RDF Schema Language) v OWL (Web Ontology Language) o To mt ontology gin n cho bookstore: nh ngha cỏc khỏi nim v cỏc quan h cho bookstore o Cung cp kh nng chn la dch v cho ngi dựng: s dng cỏc ontology ó nh ngha, ngi dựng cú th thay i hon ton cỏc ngun thụng tin (information sources) o Cho phộp ngi dựng iu khin cỏc dch v, thụng tin v cỏch hin th thụng tin V lý thuyt cn nghiờn cu: Web service, ontology, semantic Web (RDF, RDFs, OWL) Ngụn ng ci t l Java, JSP, XML v Servlet Phn mm ngun m: Jena, DB2 database Ti liu tham kho [1] W3schools website Semantic Web Tutorial Tham kho ti a ch: http://www.w3schools.com/semweb/default.asp [2] Infomesh website.The Semantic Web Tham kho ti a ch: http://infomesh.net/2001/swintro/ [3] W3schools website RDF Tutorial Tham kho ti a ch: http://www.w3schools.com/rdf/default.asp [4] Frank Manola and Eric Miller RDF Primer W3C Recommendation 10 February 2004 Tham kho ti a ch: http://www.w3.org/TR/rdf-primer/ [5] Ora Lassila and Ralph R Swick RDF Model and Syntax Specification W3C Recommendation 10 February 2004 Tham kho ti a ch: http://www.w3.org/TR/REC-rdf-syntax [6] Michael K Smith, Chris Welty, and Deborah L McGuinness OWL Web Ontology Language Guide W3C Recommendation, 10 February 2004 Tham kho ti a ch: http://www.w3.org/TR/owl-guide/ [7] Mike Dean and Guus Schreiber OWL Web Ontology Language Reference W3C Recommendation, 10 February 2004 Tham kho ti a ch: http://www.w3.org/TR/owl-ref/ [8] Peter F Patel-Schneider, Pat Hayes, and Ian Horrocks OWL Web Ontology Language Semantics and Abstract Syntax W3C Recommendation, 10 February 2004 Tham kho ti a ch: http://www.w3.org/TR/owl-semantics/ [9] Sun Microsystems website Learning the Java Language Sun Microsystems documentation Tham kho ti a ch: http://java.sun.com/docs/books/tutorial/ [10] Prentice Hall and Sun Microsystems website Servlet and JSP Quick Reference Prentice Hall and Sun Microsystems Documentation Tham kho ti a ch: http://pdf.coreservlets.com/CSAJSP-Appendix.pdf [11] Philip McCarthy Introduction to Jena: Use RDF models in your Java applications with the Jena Semantic Web Framework IBM Documentation, 23 Jun 2004 Tham kho ti a ch: http://www.ibm.com/developerworks/xml/library/j-jena/ [12] Nicholas Chase Building Web service applications with the Google API IBM Documentation, 15 May 2002 Tham kho ti a ch: http://www.ibm.com/developerworks/edu/ws-dw-wsgoog-i.html LUN VN TT NGHIP I HC K29 Nhúm 1: Tờn ti: H thng qun lý cụng Loi ti: Trớ tu nhõn to Giỏo viờn hng dn: Nguyn Th Minh Luõn S lng sinh viờn tham gia: sinh viờn Yờu cu ca ti Túm tt bi toỏn, kh nng ng dng Mc ớch ca ti l xõy dng mt ng dng qun lý cụng phc v cụng tỏc qun lý iu hnh ca cỏc c quan, xớ nghip Ngoi cỏc chc nng c bn nh qun lý cụng n, cụng i, ng dng cũn cho phộp ngi s dng cú th chat hoc gi tin nhn offline cng nh cú th trao i thụng tin thoi theo kiu PC2PC Ngoi ra, cú th tin hc húa hiu qu cỏc ng dng phũng, vic nghiờn cu v s dng cỏc gii phỏp bo mt thụng tin lu tr l ht sc quan trng Do ú, ti cng s quan tõm tỡm hiu, so sỏnh v la chn s dng mt gii phỏp bo mt phự hp phc v cụng tỏc qun lý th V lớ thuyt cn nghiờn cu: UML, h thng qun lý cụng vn, bo mt d liu, VoIP Ngụn ng ci t: SV t chn Ti liu tham kho [1] Cỏc qui nh v qun lý v lu tr th, tham kho ti trang Web ca Cc Vn th v Lu tr nh nc: www.luutruvn.gov.vn [2] Cỏc ti liu v VOIP trờn Internet Nhúm 2: Tờn ti: ng dng h thng a tỏc t cụng tỏc d oỏn Loi ti: Trớ tu nhõn to, lm vic theo nhúm Giỏo viờn hng dn: Nguyn Th Minh Luõn 10 S lng sinh viờn tham gia: sinh viờn 11 Yờu cu ca ti Túm tt bi toỏn, kh nng ng dng ng bng sụng Cu Long (BSCL) ó cú nhng bc tin vt bc v sn xut lỳa go hn mi nm qua v ó mang li nhiu li ớch cho ngi sn xut v cho ngnh lng thc phc v xut khu nh vo thõm canh tng v Nhng chớnh iu ny cng l mt c hi cho s bc phỏt dch hi, c bit l dch hi ry nõu nhng vựng sn xut lỳa trng im ca c nc gii quyt trờn, u tiờn ta phi hiu c hnh vi di trỳ sõu bnh, cụn trựng gõy hi t ú cỏc bin phỏp ngn chn s lõy lan phự hp Trong ti ny, chỳng ta s ng dng cụng ngh a tỏc t nhm mc ớch nghiờn cu mt cỏch trc quan hn v giỳp cỏc nh chuyờn mụn cú th can thip n mc thp nht ca mụ hỡnh, c th õy l cụn trựng gõy hi Mt khỏc cú th ng dng trờn nhng a bn c th, chỳng ta cn tớch hp h thng thụng tin a lý c t iu kin a hỡnh tng vựng vo h thng mụ phng a tỏc t V lớ thuyt cn nghiờn cu: h thng a tỏc t (multi-agent system), h thng thụng tin a lý (GIS), cụn trựng gõy hi Ngụn ng ci t: SV t chn 12 Ti liu tham kho [1] J Bank Handbook of simulation Weley-Interscience, 1998 [2] S.A DeLoach and M Wood An overview of the multiagent systems engineering methodology AOSE, pages 207- 222, 2000 [3] http://www.swarm.org/wiki/Main_Page [4] http://repast.sourceforge.net/ LUN VN TT NGHIP I HC K29 Tờn ti: Web 2.0 v ng dng thng mi in t Loi ti:Thng mi in t Giỏo viờn hng dn: Lờ Vn Lõm 10 S lng sinh viờn tham gia: sinh viờn (im trung bỡnh >7.5) 11 Yờu cu ca ti Web 2.0 cú th c nh ngha nh mt th h mi ca nhng dch v trờn WWW Nú to mt hỡnh thc sỏng to mi vic tng tỏc ngi dựng, sỏng to ni dung v thụng tin chia s trờn WWW Vic s dng Web 2.0 vo lnh vc thng mi in t ó to nờn nhng cỏi tờn rt ni ting v quen thuc nh Amazon, eBay Vic nghiờn cu nhng yu t thnh cụng, cng nh nhng cn gii quyt vic ng dng Web 2.0 thng mi in t l rt quan trng ti lun tt nghip thc hin cỏc cụng vic sau õy: Nghiờn cu nhng mụ hỡnh thnh cụng vic ỏp dng Web 2.0 Nhng cn gii quyt Xõy dng mt mụ hỡnh thng mi in t cú s dng Web 2.0 c rỳt kt t nghiờn cu trờn 12 Ti liu tham kho [1] John Musser, Web 2.0: Princeples and Best Practices, OReilly Media, 2007 [2] Stern, Allen, Future of Web AppsKevin Rose, September 13, 2006, http://www.centernetworks.com/future-of-web-apps-kevin-rose [3] Customer Satisfaction Index Finds Satisfaction with eCommerce, http://www.the-dma.org/cgi/dispnewsstand?article=4486+++++ [4] Barnes & Noble book page Web 2.0 elements, including customer reviews, authorized sellers, people who bought this book also bought, and online reading groups May 2006, http://search.barnesandnoble.com/booksearch/isbninquiry.asp?ISBN=0307277674&z=y &cds2Pid=9481 [5] Amazon.com Community Participation Guidelines, http://www.amazon.com/gp/help/customer/display.html?nodeId=14279631 LUN VN TT NGHIP I HC K29 Nhúm 1: 13 Tờn ti: Xõy dng phn mm SMSC server v phn mm SMS client (mụ phng mobile phone) 14 Loi ti: TCP/IP application, lm vic theo nhúm 15 Giỏo viờn hng dn: Lờ Phng Anh 16 S lng sinh viờn tham gia: sinh viờn nam 17 Yờu cu ca ti Túm tt SMPP protocol, kh nng ng dng gii quyt ny cn nm vng cu trỳc giao thc SMPP v nguyờn lý hot ng nhn tin ca h thng mng thụng tin di ng t bo Ni dung gm phn chớnh: Phn giao thc SMPP v phn ci t (implement) Riờng phn ci t cú phn: SMSC v mụ phng SMS client V lớ thuyt cn nghiờn cu: TCPI/IP, mng thụng tin di ng t bo, hot ng nhn tin ngn, v SMPP protocol Ngụn ng ci t cú th l C++ hoc Java (yờu cu dựng mó ngun m) 18 Ti liu tham kho [6] Th vin mó ngun m SMPP ca Asterisk v khỏc Tham kho ti a ch: http://www.asterisk.com http://opensmpp.logica.com/introhtml/menu.htm [7] Ti liu k thut c bn v SMSC Tham kho ti a ch: http://www.developershome.com/sms/sms_tutorial.asp?page=smsc LUN VN TT NGHIP I HC K29 19 Tờn ti: Nghiờn cu cỏc gii phỏp tớch hp h thng thụng tin 20 Loi ti: Cụng ngh phn mm, lm vic theo nhúm 21 Giỏo viờn hng dn: Nguyn Phỳ Trng 22 S lng sinh viờn tham gia: sinh viờn 23 Yờu cu ca ti Túm tt bi toỏn, kh nng ng dng Trong quỏ trỡnh tin hc hoỏ qun lý ca c quan c bit l c quan ln, mi mt b phn no c quan cú nhu cu tin hc hoỏ, h xõy dng mt phn mm tng ng Thớ d, b phn ti v cn cú phn mm k toỏn, b phn nhõn s cn cú phn mm qun lý nhõn s v tin lng,Tuy nhiờn, mi phn mm c phỏt trin mt cỏch c lp v vo nhng thi im khỏc nờn cỏc phỏt sinh Cỏc phn mm khụng th giao tip vi nờn khụng th trao i d liu Cụng ngh c ỏp dng vic phỏt trin phn mm cng khỏc Thớ d, phn mm qun lý k toỏn c vit bng Visual FoxPro dựng h qun tr c s d liu SQL Server nhng phn mm qun lý nhõn s c vit bng C# dựng h qun tr c s d liu Oracle Cựng mt thụng tin nhng c biu din theo nhiu cỏch khỏc cỏc phn mm khỏc Thớ d, vi mó nhõn viờn c qun lý kiu ký t vi ký t phn mm k toỏn nhng li c qun lý kiu s vi s phn mm qun lý nhõn s Vn t l phi tỡm gii phỏp tớch hp cỏc phn mm c lp thnh mt h thng thụng tin thng nht tho cỏc yờu cu sau: Cỏc phn mm cú th trao i d liu vi mt cỏch t ng Mi s thay i thụng tin trờn phn mm ny phi c cp nht n phn mm Vic tớch hp h thng thụng tin khụng lm thay i cỏc phn mm ó cú (nu cú th) D liu ca cỏc phn mm ó cú th s dng vic phỏt trin phn mm mi h thng thụng tin tớch hp gii quyt ny cú nhiu gii phỏp thc hin: Tớch hp mc c s d liu: vi gii phỏp ny ngi tớch hp ng dng cú th da vo c im ng b hoỏ d liu ca cỏc h qun tr c s d liu hoc vit cỏc middleware thc hin vic trao i d liu d cỏc phn mm Tớch hp mc ng dng: tip cn ny ũi hi phi hiu chnh li cỏc phn mm ó cú iu ny, s vi phm vi yờu cu Tuy nhiờn, tip cn ny cú th ỏp dng trng hp cỏc phn mm c phỏt trin bi cựng mt nh phỏt trin hoc mó ngun c chia s thc hin ti ny sinh viờn cn thc hin cỏc yờu cu sau: V lớ thuyt cn nghiờn cu: cỏc gii phỏp tớch hp h thng thụng tin Xõy dng chng trỡnh: i Vit cỏc cụng c úng vai trũ middleware thc hin vic trao i d liu gia cỏc phn mm ii Khai thỏc tớnh nng ng b d liu ca cỏc h qun tr c s d liu thc hin vic trao i d liu gia cỏc phn mm Cú th vit cỏc script vi dng store procedure iii Phng phỏp hiu chnh cỏc phn mm ó cú chỳng cú th giao tip vi 24 Ti liu tham kho [13] Nguyn Hong Vit, Nguyn Phỳ Trng Tớch hp h thng thụng tin trng i hc Cn Th 2005 [14] System Integration Solutions, tham kho ti a ch: http://www.altera.com/technology/integration/int-index.html Proposition de mộmoire 2007-2008 Classification de Spams Responsables: The-Phi Pham1, Thanh-Nghi Do2 Laboratoire : Facultộ des Technologies de lInformation Adresse : Universitộ de Can Tho, rue Ly Tu Trong, Can Tho Mail : ptphi@cit.ctu.edu.vn Laboratoire : INRIA Futurs Adresse : L.R.I., Universitộ Paris-Sud, Bõt 490, 91405 Orsay Cedex Mail : dtnghi@lri.fr Objectifs Ces derniốres annộes, les utilisateurs dinternet reỗoivent nombreux de messages non sollicitộs, souvent publicitaires, envoyộs en grand nombre, on parle de Spam Une ộtude du Spam [Sung-jin, 2003] a rapportộ que le coỷt du Spam sest ộlevộ milliards de dollars pour lannộe 2002 Une autre ộtude [Mi2g, 2003] a calculộ que pendant le mois doctobre 2003 le coỷt du Spam a ộtộ de 10,4 milliards de dollars Daprốs [Doug, 2003], si un spammeur (une personne qui crộe des Spams) gagne 10 mille dollars par mois alors le coỷt de ses Spams est de 100 mille dollars La lutte contre le Spam est indispensable pour rộduire les gaspillages de ressources et de temps du monde informatique Lobjectif de ce mộmoire est dộtudier les approches qui permettant de classifier les messages en Spam ou non Spam Pour ce faire, lộtudiant(e) devra crộer une base de spams partir des courriers ộlectroniques que lon a reỗus Ensuite cest nộcessaire de transformer la base de spams, initialement en format texte, en une reprộsentation numộrique laide de loutil Bow [McCallum, 1998] Ceci comprend lextraction de termes et la sộlection des termes les plus pertinents Une fois ce prộtraitement terminộ, on peut reprộsenter les textes sous la forme de vecteurs numộriques que les algorithmes automatiques peuvent traiter On va utiliser les algorithmes des arbres de dộcision, C4.5 [Quinlan, 1993] et une forờt alộatoire (Random Forest) [Breiman, 2001] pour catộgoriser de spams La mesure de qualitộ des rộsultats obtenus [Uren, 2000] prend en compte le taux de prộcision, le taux de rappel Rộfộrences [Breiman, 2001] L Breiman Random Forests Machine Learning, 45(1), pp 5-32, 2001 [Do et Fekete, 2007] T-N Do et J-D Fekete Flot visuel de donnộes ( paraợtre) RNTI Sộrie Extraction et Gestion des Connaissances, Cộpaduốs Editions, 2007 [Do et Poulet, 2004] T-N Do et F Poulet La catộgorisation de textes Rapport de contrat Fondation Vediorbis, ESIEA Recherche, Laval, 2004 [Doug, 2003] Doug Spams Economic Damage Dougs Inner Net News 15-12-2003, 2003 [McCallum, 1998] A McCallum Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering 1998 http://www-2.cs.cmu.edu/~mccallum/bow [Mi2g, 2003] Mi2g Spam Overtakes Malware and Hacking Damage Mi2g 06-11-2003, 2003 [Pham et al., 2007] N-K Pham, T-N Do et F Poulet Catộgorisation de textes avec Boosting de PSVM ( paraợtre) actes de la conf nationale des technologies de linformation, Da Lat, Vietnam [Quinlan, 1993] J Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [Sung-jin, 2003] K Sung-jin Internet Users Sustain $2 Bil In Damages Due to Spam Mail Korea Times 12-01-2003, 2003 [Uren, 2000] V Uren An Evaluation of Text Categorisation Errors Proceeding of the One-Day Workshop on Evaluation of Info Management Systems, Queen Mary and Westfield College, London, UK, 2000, pp 79-87 Nghiờn cu phõn loi Spams Giỏo viờn hng dn: Ths Hip Thun, Ts Thanh Ngh B mụn h thng mỏy tớnh v truyn thụng Khoa cụng ngh thụng tin Trng i hc cn th email: dhthuan@cit.ctu.edu.vn, dtnghi@cit.ctu.edu.vn Mc tiờu Trong nhng nm qua, ngi dựng mỏy tớnh trờn ton cu nhn nhiu th in t khụng phc v cho mc ớch s dng mỏy tớnh ca h, thng l nhng qung cỏo, th phn ng, chi ỏnh bc, thm l nhng on mó c hi, i try khỏc, m chỳng ta gi ú l spam Mt nghiờn cu ca [Sungjin, 2003] ó cho bit tn tht ca ngi dựng mỏy tớnh lờn n t ụ la nm 2002 Mt nghiờn cu khỏc ca [Mi2g, 2003] cng cho bit thỏng 10 nm 2003, tn tht ny lờn n 10,4 t ụ la Theo [Doug, 2003], nu mt ngi phỏt tỏn spam thu c li 10 ngn ụ la thỏng thỡ tn tht h gõy l 100 ngn ụ la Chớnh vỡ l ú, vic chng spam cn c quan tõm hn Mc tiờu ca ti l nghiờn cu nhng phng phỏp phõn loi th in t nhn bit spam lm c iu ny, sinh viờn nờn to d liu th in t gm cú spam v khụng phi l spam Sau ú s chuyn i cỏch biu din d liu v vi dng bng d liu vộc t kiu s d trờn th vin Bow [McCallum, 1998] Nú bao gm cỏc bc phõn tớch t vng v chn hp t m cú th dựng phõn loi th spam Tip theo l sinh viờn s s dng gii thut mỏy hc cõy quyt nh C4.5 [Quinlan, 1993] et gii thut Bayes ô th ngõy ằ phõn loi th spam ỏnh giỏ kt qu t c [Uren, 2000] da trờn cỏc tiờu precision v recall S lng sinh viờn tham gia: sinh viờn Ti liu tham kho [Doug, 2003] Doug Spams Economic Damage Dougs Inner Net News 15-12-2003, 2003 [McCallum, 1998] A McCallum Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering 1998 http://www-2.cs.cmu.edu/~mccallum/bow [Mi2g, 2003] Mi2g Spam Overtakes Malware and Hacking Damage Mi2g 06-11-2003, 2003 [Pham et al., 2007] N-K Pham, T-N Do et F Poulet Phõn loi bn vi Boosting PSVM Hi tho quc gia v cụng ngh thụng tin v truyn thụng, lt, 2006 [Quinlan, 1993] J Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [Sung-jin, 2003] K Sung-jin Internet Users Sustain $2 Bil In Damages Due to Spam Mail Korea Times 12-01-2003, 2003 [Uren, 2000] V Uren An Evaluation of Text Categorisation Errors Proceeding of the One-Day Workshop on Evaluation of Info Management Systems, Queen Mary and Westfield College, London, UK, 2000, pp 79-87 Khai m d liu vi ngụn ng R Giỏo viờn hng dn: Th.s Hip Thun, Ts Thanh Ngh B mụn h thng mỏy tớnh v truyn thụng Khoa cụng ngh thụng tin Trng i hc cn th email : dhthuan@cit.ctu.edu.vn dtnghi@cit.ctu.edu.vn Mc tiờu Trong nhng nm 1990, cuc cỏch mng k thut s cho phộp s húa thụng tin d dng v chi phớ thp, thờm vo ú l s phỏt trin ca cụng ngh thụng tin bao gm c phn cng ln phn mm, cụng ngh truyn thụng, web, internet ó gúp phn a mỏy tớnh vo cỏc sinh hot thng nht ca ngi Tt c cỏc hat ng kinh doanh, vui chi gii trớ, nghiờn cu khoa hc, giỏo dc, truyn thụng, u cú s h tr ca mỏy tớnh H qu l mt lng ln d liu c sinh v lu tr cỏc c s d liu, thit b lu tr nh bng t, a t Nm 1999, Giỏo s P Lyman, i hc Berkeley ó tin hnh thng kờ d liu c sinh hng nm trờn ton cu Trong nm 2002-2003 (tham kho a ch http://www.sims.berkeley.edu/research/projects/how-much-info-2003/), d liu tng Exabytes (5 1018 bytes) U Fayyad et al [8] c lng d liu ton cu tng gp ụi vũng thỏng Khỏm phỏ tri thc l mt quỏ trỡnh lp phc c nh ngha bi [7] s dng nhiu k thut nh c s d liu, mỏy hc, phng phỏp thng kờ phõn tớch d liu, hin th d liu, ti u húa, trớ tu nhõn to, nhm tỡm nhng kin thc cn thit, tỡm kim tri thc t kho d liu khng l phõn loi, qun lý tr thnh rt c quan tõm Mc tiờu ca ti l nghiờn cu ngụn ng lp trỡnh hm cp cao R dnh cho phõn tớch d liu, khỏm phỏ tri thc v khai m d liu õy l mt phn mm phớ mó ngun m, rt d hc v cú th phỏt trin nhanh cỏc ng dng khai m d liu thi gian ngn R l mụi trng thớch hp cho vic ging dy, hc v nghiờn cu trng i hc v khai m d liu Khụng phi tn chi phớ cho bn quyn, hn na R h tr rt nhiu cụng c hu ớch cho quỏ trỡnh khai m d liu nh: cỏc gii thut hc t ng ca cõy quyt nh, phõn cm, mng nron, mỏy hc vect h tr, hi quy v cỏc giao din truy d liu, hin th d liu Cú th lp trỡnh mt cỏch d dng R Sinh viờn cn ch lm th no cú th khai m d liu vi mụi trng R Ni dung thc hin bao gm trỡnh by túm tt c bn v ngụn ng R v kh nng lp trỡnh R Tip theo, trỡnh by cỏc h tr ca R cho quỏ trỡnh khai m d liu nh : nhp xut d liu, hin th d liu vi v thc hin cỏc gii thut khai m d liu S lng sinh viờn tham gia: sinh viờn Ti liu tham kho [3] R.A Becker, J.M Chambers and A.R Wilks.: The New S Language: A Programming Environment for Data Analysis and Graphics Chapman & Hall, 1988 [4] C Blake and C Merz.: UCI Repository of Machine Learning Databases 1998 http://www.ics.uci.edu/~mlearn/MLRepository.html [5] L Breiman, J Friedman, R Olshen and C Stone.: Classification and Regression Trees Chapman & Hall, New York, 1984 [6] L Breiman.: Random Forests Machine Learning, 45(1), pp 5-32, 2001 [7] M.J Crawley.: Statistics: An Introduction using R Wiley, 2005 [8] T-N Do, N-K Pham, H-T Do and N-C Lam Khai m d liu vi ngụn ng R in proc of FAIR07, The Third National Symposium Fundamental & Applied IT Research, Vietnam, 2007 [9] U Fayyad, G Piatetsky-Shapiro, and P Smyth.: From Data Mining to Knowledge Discovery in Databases AI Magazine, 17(3), pp.37-54, 1996 [10] U Fayyad, G Piatetsky-Shapiro, and R Uthurusamy.: Summary from the KDD-03 Panel Data Mining: The Next 10 Years in SIGKDD Explorations, 5(2), pp.191-196, 2004 [11] U Fayyad, G Grinstein, and A Wierse.: Information Visualization in Data Mining and Knowledge Discovery Morgan Kaufmann Publishers, 2001 [12] R Ihaka and R Gentleman.: R: A language for data analysis and graphics Journal of Computational and Graphical Statistics, 5(3), pp 299-314, 1996 [13] D Keim.: Databases and Visualization Tutorial Notes, ACM-SIGMOD96, 1996 [14] T Kohonen.: Self-Organizing Maps Springer, Berlin, Heidelberg, New York, 1995 [15] J Maindonald and J Braun.: Data Analysis and Graphics Using R Cambridge University Press, 2003 [16] J MacQueen.: Some Methods for classification and Analysis of Multivariate Observations Proceeding of 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, Vol 1, pp 281-297, 1967 [17] J-R Quinlan.: C4.5: Programs for Machine Learning Morgan-Kaufman Publishers, 1993 [18] P Spector.: An Introduction to S and S-Plus Duxbury Press, 1994 [19] P Spector.: An Introduction to R Statistical Computing Facility, University of California, Berkeley, 2004 [20] The Comprehensive R Archive Network (CRAN) http://cran.r-project.org [21] V Vapnik.: The Nature of Statistical Learning Theory Springer-Verlag, New York, 1995 [22] W N Venables and D M Smith.: An Introduction to R Network Theory, 2002 [23] P Burns.: An Introduction to the S Language 2002

Ngày đăng: 18/10/2016, 08:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan