1. Trang chủ
  2. » Thể loại khác

2015 Han cherui rotin dung dua tren thua toan phan lop Hoi thao Quoc Gia

13 64 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

2015 Han cherui rotin dung dua tren thua toan phan lop Hoi thao Quoc Gia tài liệu, giáo án, bài giảng , luận văn, luận á...

1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BÀI 4 – PHẦN 2PHÂN LỚP DỮLIỆU 3NỘI DUNG1. Gii thiu2. Phương pháp Naïve Bayes3. Phương pháp dựa trên thểhiện4. Đánh giá mô hình4GIỚI THIỆUCustomer AgeIncome(K)No. cardsResponseLâm 35 35 3 YesHưng 22 50 2 NoMai 28 40 1 YesLan 45 100 2 NoThủy 20 30 3 YesTuấn 34 55 2 NoMinh 63 200 1 NoVân 55 140 2 NoThiện 59 170 1 NoNgọc 25 40 4 YesChâu 30 45 3 ???Thời gian : 5’Yêu cầu :Trình bày ý tưởng xác định lớp cho mẫu cuối cùng (Châu) khi cho biết các mẫu còn lại. 5GIỚI THIỆU1. Phân lớp :Cho tập các mẫu đã phân lớp trước, xây dựng mô hình cho từng lớpMc đích : Gán các mu mi vào các lp vi đ chính xác cao nht có th.Cho CSDL D={t1,t2,…,tn} và tập các lớp C={C1,…,Cm}, phân lp là bài toán xác định ánh xạ f : DC sao cho mỗi ti được gán vào một lớp.6Hành độngMô hìnhDữ liệuLượng giá, hồi qui, học, huấn luyện Phân loại, ra quyết địnhGIỚI THIỆU 7NI DUNG1. Gii thiu2. Phng phỏp Naùve Bayes3. Phng phỏp da trờn th hin4. ỏnh giỏ mụ hỡnh8GII THIU1. Phõn lp theo mụ hỡnh xỏc sut :D oỏn xỏc sut hay d oỏn xỏc sut l thnh viờn ca lpNn tng : da trờn nh lý BayesCho X, Y l cỏc bin bt k ( ri rc, s, cu trỳc, )D oỏn Y t XLng giỏ cỏc tham s ca P(X | Y) , P(Y) trc tip t tp DL hun luynS dng nh lý Bayes tớnh P(Y | X=x) 92. Định lý Bayes)x(P)y(P)y|x(P)x|y(P⋅=Cụ thể :Biến bất kỳGiá trị thứ iGIỚI THIỆU102. Định lý BayesTương đương :GIỚI THIỆU 113. Phân loại BayesXD mô hình : Lượng giá P(X |Y), P(Y)Phân lớp : Dùng định lý Bayes để tính P(Y | Xnew)Tập DL huấn luyệnGIỚI THIỆU124. Độc lập điều kiện (Conditional independence)Ta thường viết : Định nghĩa : X độc lập điều kiện với Y khi cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trị của Z.Ví d : P(Sm sét | Ma, Chp) = P(Sm sét | Chp)GIỚI THIỆU 13Thut toỏn Naùve BayesGi s : D : tp hun luyn gm cỏc mu biu din di dng X = <x1, ., xn> Ci,D: tp cỏc mu ca D thuc lp Civi i = {1, , m} Cỏc thuc tớnh x1, ., xn c lp iu kin ụi mt vi nhau khi cho lp CKhi ú : ta cn xỏc nh xỏc sut P(Ci|X) ln nht14Thut toỏn Naùve BayesTheo nh lý Bayes :)|( .)|()|(1)|()|(21CixPCixPCixPnkCixPCiPnkììì===X)()()|()|(XXXPiCPiCPiCP =Theo tớnh cht c lp iu kin : Lut phõn lp cho Xnew= {x1, .,xn} l :=nkCixPCPkiCk1)|()( maxarg 15Thut toỏn Naùve BayesB1 : Hun luyn Naùve Bayes (trờn tp DL hun luyn) Lng giỏ P(Ci)Lng giỏ P(Xk|Ci)B2 : Xnew c gỏn vo lp cho giỏ trcụng thc ln nht : =nkCixPCPkiCk1)|()( maxarg 16Trng hp X giỏ tr ri rcGi s : X = <x1, .,xn> xinhn cỏc giỏ tr ri rcKhi ú : Lng giỏ P(Ci) v lng giỏP(Xk|Ci) theo cụng thc DiCkxDiCiCkxP,}{,#)|( DDiCiCP,)( 17Trường hợp X – giá trị rời rạc• Để tránh trường hợp giá trị P(Xk|Ci) = 0 do không có mẫu nào trong DL huấn kuyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo.Khi đó :• Làm trơn theo Laplace :rDiCkxDiCiCkxP++≈,1}{,#)|(mDDiCiCP++≈1,)(với m – số lớp và r là số giá trị rời rạc của thuộc tính18VÍ DỤ 1 : Cho tập dữ liệu huấn luyện :Outlook Temperature Humidity Windy Play?sunny hot high weak Nosunny hot high strong Noovercast hot high weak Yesrain mild High weak Yesrain cool Normal weak Yesrain cool normal strong Noovercast cool normal strong Yessunny mild high weak Nosunny cool normal weak Yesrain mild normal weak Yessunny mild normal strong Yesovercast mild high strong Yesovercast hot normal weak Yesrain mild high strong No 19B1 : Ước lượng P(Ci) với C1= “yes”, C2= “no” vàP(xk|Ci) Ta thu được P(Ci) :Với thuộc tính Outlook, ta có các giá trị : sunny, overcast, rain. Trong đó P(sunny|Ci) là :P(C1) = 9/14=0.643P(C2) = 5/14=0.357OutlookP(sunny | HẠN CHẾ RỦI RO TÍN DỤNG DỰA TRÊN THUẬT TỐN PHÂN LỚP ThS Nguyễn Dương Hùng Khoa Hệ thống Thông tin Quản lý - Học viện Ngân hàng Khai phá liệu (DM-Data Mining) công cụ chiết xuất thơng tin từ liệu, giúp ngân hàng có thơng tin tốt việc phân khúc khách hàng, nhận định khách hàng tiềm năng, phê duyệt, quảng bá, giới thiệu sản phẩm, phát giao dịch gian lận Kỹ thuật nhiều ngân hàng đề xuất, khuyến nghị sử dụng việc hỗ trợ việc định kinh doanh thuộc lĩnh vực tiền tệ Trong viết này, tác giả trình bày vấn đề ứng dụng kỹ thuật phân lớp khai phá liệu để hỗ trợ việc định cho khách hàng vay (không cho vay) tiêu dùng ngân hàng thương mại Từ khóa: Khám phá tri thức, khai phá liệu, rủi ro tín dụng, định Quá trình khai phá liệu Khai phá liệu q trình khơng thể thiếu vắng trình tìm kiếm tri thức từ liệu Tại trình này, chuyên gia phải đặt tốn cần thơng tin cho việc hỗ trợ kinh doanh, trích rút, chiết suất thơng tin nào, đâu, phương pháp hiệu Thơng thường tốn gồm bước: - Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding and Data Understanding) Ở bước này, chuyên gia lĩnh vực, ngành đặc thù cần thảo luận với chuyên gia tin học, để xác định mong muốn khám phá gì, thống giải pháp cho trình khám phá liệu (muốn có qui luật hay muốn phân lớp, phân cụm liệ) Đây giai đoạn quan trọng xác định sai vấn đề tồn q trình trở nên vơ ích - Chuẩn bị liệu (Data preparation) gồm bước sau: (i) Thu thập liệu (Data gathering); (ii) Làm liệu (Data cleaning); (iii) Tích hợp liệu (Data integeration); (iv) Chọn liệu (Data selection); (v) Biến đổi liệu (Data transformation) Đây bước quan trọng liệu đầu vào khơng xác dẫn tới kết đầu khơng xác, khơng có giá trị hỗ trợ định - Khai phá liệu (Data Mining), bước xác định nhiệm vụ khai phá liệu lựa chọn kỹ thuật khai phá liệu Kết q trình tìm tri thức, mơ hình hay quy luật ẩn chứa bên liệu - Đánh giá mẫu (Partern Evalution): Đánh giá xem tri thức thu có xác, có giá trị hay khơng, khơng quay lại bước Việc đánh giá thực thông qua chuyên gia lĩnh vực người dùng cuối(end user) chính, khơng phải chuyên gia tin học - Biểu diễn tri thức triển khai (Knowlegde Presentation and Deployment): Biểu diễn tri thức phát dạng tường minh, thân thiện hữu ích với đa số người dùng tiến hành đưa tri thức phát vào ứng dụng cụ thể 1|Page Một cách tổng quát, khám phá tri thức trình kết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng [2],[5] Hình Quá trình phát tri thức từ liệu Trong trình tìm kiếm tri thức trên, khai phá liệu khái niệm dùng để mô tả trình phát tri thức sở liệu (CSDL) Quá trình kết xuất tri thức ẩn chứa liệu, giúp cho việc dự báo kinh doanh, hoạt động sản xuất Qui trình gồm có giai đoạn[2]: Thu thập liệu (Data Gathering) Đây bước tập hợp liệu khai thác CSDL, kho liệu chí liệu từ nguồn ứng dụng Web Trích lọc liệu (Data Selection) Ở giai đoạn này, liệu lựa chọn phân chia theo số tiêu chuẩn đó, ví dụ chọn tất khách hàng có tài khoản chấp nhà họ Làm sạch, tiền xử lý chuẩn bị liệu (Cleansing, Pre-processing and Preparation) Đây bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu liệu không đủ tính chặt chẽ, logic; liệu thường chứa giá trị khơng có ý nghĩa khơng có khả kết nối Giai đoạn tiến hành xử lý dạng liệu không chặt chẽ, không lôgic nói chúng thơng tin dư thừa, khơng có giá trị Bởi vậy, q trình quan trọng liệu khơng “làm sạch- tiền xử lý- chuẩn bị trước” dẫn đến kết sai lệch nghiêm trọng, từ dẫn tới định khơng xác Chuyển đổi liệu (Data Transformation) Dữ liệu thô chuyển đổi sang dạng liệu phù hợp với mục đích khai thác 2|Page Phát trích mẫu liệu (Pattern Extraction and Discovery) Ở giai đoạn này, nhiều thuật toán khác sử dụng để trích mẫu từ liệu Thuật tốn thường dùng nguyên tắc phân loại, nguyên tắc kết hợp mơ hình liệu Đánh giá kết (Evaluation of Result) Đây giai đoạn cuối trình khai phá liệu Ở giai đoạn này, mẫu liệu chiết xuất phần mềm khai phá liệu Không phải mẫu liệu hữu ích Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức (Knowledge) cần thiết Q trình khai phá liệu mơ hình hóa cách tổng qt hình đây: Hình Kiến trúc điển hình hệ thống khai phá liệu Ứng dụng khai phá liệu lĩnh vực ngân hàng Ngành công nghiệp ngân hàng giới trải qua thay đổi to lớn cách thức kinh doanh họ Áp dụng công nghệ thông tin vào công việc kinh doanh ngân hàng tạo nên thay đổi lớn, việc thực giao dịch trở nên dễ dàng, đồng thời khối lượng liệu từ giao dịch tăng lên đáng kể Việc phân tích số lượng liệu thơ khổng lồ chuyển đổi thành thơng tin hữu ích cho ngân hàng nhằm hỗ trợ việc định kinh doanh trở thành vấn đề thiết yếu Bằng cách sử dụng kỹ khai phá liệu để phân tích, ngân hàng dự đốn với độ xác tình liên quan đến các định kinh doanh Ví dụ khách hàng phản ứng với việc điều chỉnh lãi suất, khách hàng có khả chấp nhận chào hàng sản phẩm mới, khách hàng có nguy rủi ro cao hơn, làm để mối quan hệ khách hàng ngày có lợi Thực tế cho thấy, ngân hàng sử dụng có hiệu kỹ thuật khai phá liệu lĩnh vực sau: a Quản bá sản phẩm bán hàng (Marketing): 3|Page Một lĩnh vực ứng dụng rộng rãi cho ngành ... Phương pháp ước tính tổn thất tín dụng dựa trên hệ thống cơ sở dữ liệu đánh giá nội bộ - IRB và những ứng dụng trong quản trị rủi ro Tháng 6 năm 2004, ủy ban Basel đã xây dựng Hiệp định mới về “Tiêu chuẩn vốn quốc tế” - mà chúng ta vẫn gọi là Basel II. Theo đó, các ngân hàng sẽ sử dụng hệ thống cơ sở dữ liệu của nội bộ để đánh giá vấn đề rủi ro tín dụng, từ đó xác định hệ số an toàn vốn tối thiểu. Như vậy, theo yêu cầu của Basel II, các ngân hàng sẽ sử dụng các mô hình dựa trên hệ thống dữ liệu nội bộ để xác định khả năng tổn thất tín dụng. Các ngân hàng sẽ xác định các biến số như PD - Probability of Default: xác suất khách hàng không trả được nợ; LGD: Loss Given Default - tỷ trọng tổn thất ước tính; EAD: Exposure at Default - tổng dư nợ của khách hàng tại thời điểm khách hàng không trả được nợ. Thông qua các biến số trên, ngân hàng sẽ xác định được EL: Expected Loss - tổn thất có thể ước tính. Với mỗi kỳ hạn xác định, tổn thất có thể ước tính được tính toán dựa trên công thức sau: EL = PD x EAD x LGD Chúng ta sẽ xem xét lần lượt ba chỉ tiêu cấu thành công thức trên. Thứ nhất, PD - xác suất không trả được nợ: cơ sở của xác suất này là các số liệu về các khoản nợ trong quá khứ của khách hàng, gồm các khoản nợ đã trả, khoản nợ trong hạn và khoản nợ không thu hồi được. Theo yêu cầu của Basel II, để tính toán được nợ trong vòng một năm của khách hàng, ngân hàng phải căn cứ vào số liệu dư nợ của khách hàng trong vòng ít nhất là 5 năm trước đó. Những dữ liệu được phân theo 3 nhóm sau:  Nhóm dữ liệu tài chính liên quan đến các hệ số tài chính của khách hàng cũng như các đánh giá của các tổ chức xếp hạng  Nhóm dữ liệu định tính phi tài chính liên quan đến trình độ quản lý, khả năng nghiên cứu và phát triển sản phẩm mới, các dữ liệu về khả năng tăng trưởng của ngành,…  Những dữ liệu mang tính cảnh báo liên quan đến các hiện tượng báo hiệu khả năng không trả được nợ cho ngân hàng như số dư tiền gửi, hạn mức thấu chi… Từ những dữ liệu trên, ngân hàng nhập vào một mô hình định sẵn, từ đó tính được xác xuất không trả được nợ của khách hàng. Đó có thể là mô hình tuyến tính, mô hình probit… và thường được xây dựng bởi các tổ chức tư vấn chuyên nghiệp. Thứ hai, EAD: Exposure at Default - tổng dư nợ của khách hàng tại thời điểm khách hàng không trả được nợ. Đối với khoản vay có kỳ hạn, EAD được xác định không quá khó khăn. Tuy nhiên, đối với khoản vay theo hạn mức tín dụng, tín dụng tuần hoàn thì vấn đề lại khá phức tạp. Theo thống kê của ủy ban Phương pháp ước tính tổn thất tín dụng dựa trên hệ thống cơ sở dữ liệu đánh giá nội bộ - IRB và những ứng dụng trong quản trị rủi ro Nguyễn Đức Trung ThS. Học viện Ngân hàng Tháng 6 năm 2004, ủy ban Basel đã xây dựng Hiệp định mới về “Tiêu chuẩn vốn quốc tế” - mà chúng ta vẫn gọi là Basel II. Theo đó, các ngân hàng sẽ sử dụng hệ thống cơ sở dữ liệu của nội bộ để đánh giá vấn đề rủi ro tín dụng, từ đó xác định hệ số an toàn vốn tối thiểu. Như vậy, theo yêu cầu của Basel II, các ngân hàng sẽ sử dụng các mô hình dựa trên hệ thống dữ liệu nội bộ để xác định khả năng tổn thất tín dụng. Các ngân hàng sẽ xác định các biến số như PD - Probability of Default: xác suất khách hàng không trả được nợ; LGD: Loss Given Default - tỷ trọng tổn thất ước tính; EAD: Exposure at Default - tổng dư nợ của khách hàng tại thời điểm khách hàng không trả được nợ. Thông qua các biến số trên, ngân hàng sẽ xác định được EL: Expected Loss - tổn thất có thể ước tính. Với mỗi kỳ hạn xác định, tổn thất có thể ước tính được tính toán dựa trên công thức sau: EL = PD x EAD x LGD Chúng ta sẽ xem xét lần lượt ba chỉ tiêu cấu thành công thức trên. Thứ nhất, PD - xác suất không trả được nợ: cơ sở của xác suất này là các số liệu về các khoản nợ trong quá khứ của khách hàng, gồm các khoản nợ đã trả, khoản nợ trong hạn và khoản nợ không thu hồi được. Theo yêu cầu của Basel II, để tính toán được nợ trong vòng một năm của khách hàng, ngân hàng phải căn cứ vào số liệu dư nợ của khách hàng trong vòng ít nhất là 5 năm trước đó. Những dữ liệu được phân theo 3 nhóm sau: - Nhóm dữ liệu tài chính liên quan đến các hệ số tài chính của khách hàng cũng như các đánh giá của các tổ chức xếp hạng - Nhóm dữ liệu định tính phi tài chính liên quan đến trình độ quản lý, khả năng nghiên cứu và phát triển sản phẩm mới, các dữ liệu về khả năng tăng trưởng của ngành,… - Những dữ liệu mang tính cảnh báo liên quan đến các hiện tượng báo hiệu khả năng không trả được nợ cho ngân hàng như số dư tiền gửi, hạn mức thấu chi… Từ những dữ liệu trên, ngân hàng nhập vào một mô hình định sẵn, từ đó tính được xác xuất không trả được nợ của khách hàng. Đó có thể là mô hình tuyến tính, mô hình probit… và thường được xây dựng bởi các tổ chức tư vấn chuyên nghiệp. Thứ hai, EAD: Exposure at Default - tổng dư nợ của khách hàng tại thời điểm khách hàng không trả được nợ. Đối với khoản vay có kỳ hạn, EAD được xác định không quá khó khăn. Tuy nhiên, đối với khoản vay theo hạn mức tín dụng, tín dụng tuần hoàn thì vấn đề lại khá phức tạp. Theo thống kê của ủy ban Basel, tại i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Thị Thủy TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM VÀ THỬ NGHIỆM ĐÁNH GIÁ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Hà Nội - 2011 ii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Thị Thủy TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM VÀ THỬ NGHIỆM ĐÁNH GIÁ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang Hà Nội - 2011 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Chu Thị Thủy ii Tóm tắt Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và hiểu văn bản. Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ phương thức từ văn bản dựa trên học máy SVM. Đưa ra một tập các ký hiệu liên quan tới quan hệ phương thức, bao gồm DOMAIN và RANGE. Phân tích sự gắn kết của quan hệ phương thức với những quan hệ khác. Đồng thời, chúng tôi cũng trình bày các mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức. Một tập các đặc trưng riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình. Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một kết quả nhất định: độ đo F trong khoảng 60 - 70%. Dựa vào đó, chúng tôi nhận thấy phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan. iii Lời cam đoan Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Nguyễn Thu Trang. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. iv Mục lục Tóm tắt ii Lời cam đoan iii Mục lục iv Danh sách các bảng vi Danh sách các hình vẽ vii Danh sách các hình vẽ vii Danh sách các chữ viết tắt viii Danh sách các chữ viết tắt viii Mở đầu 1 CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 4 1.1 Khái niệm Quan hệ phương thức 4 1.2 Bài toán Trích chọn quan hệ phương thức 5 1.3 Một số ký hiệu 7 1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác 9 CHƯƠNG 2. PHƯƠNG PHÁP TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 11 2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức 11 2.1.1 Các mẫu từ vựng – cú pháp cơ bản 11 2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp 15 2.2 Hướng tiếp cận giải quyết vấn đề 15 2.2.1 Mô hình phân lớp SVM nhị phân 15 2.2.2 Trích chọn đặc trưng 19 2.2.3 Quan hệ phương thức trong tiếng Việt 22 CHƯƠNG 3. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT 24 CHƯƠNG 4. THỰC Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÀI THU HOẠCH MÔN CÔNG NGHỆ TRI THỨC ĐỀ TÀI: NGHIÊN CỨU THUẬT TOÁN PHÂN LỚP DỮ LIỆU C4.5 VÀ SPRINT DỰA TRÊN CÂY QUYẾT ĐỊNH GVHD: GS.TSKH. Hoàng Kiếm Người thực hiện: Bùi Chí Cường Mã số: CH1101007 Lớp: Cao học khóa 6 TP.HCM – 2012 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời chân thành cảm ơn đến Ban Chủ nhiệm trường Đại học công nghệ thông tin TP HCM đã tạo điều kiện cho em được tiếp cận với bộ môn Công nghệ tri thức. Em xin cảm ơn thầy GS.TSKH. Hoàng Kiếm đã tận tình truyền đạt kiến thức cho chúng em cũng những gì thầy đã giúp đỡ, hướng dẫn để em thực hiện bài tiểu luận. Em cũng xin gửi lời cảm ơn sâu sắc đến quý thầy cô trong Khoa Công nghệ Thông tin cùng các bạn bè thân hữu đã nhiệt tình đóng góp ý kiến, cũng như động viên để em hoàn thiện hơn đề tài của mình. Mặc dù đã rất cố gắng nhưng đề tài khó tránh khỏi những thiếu sót và sai lầm, em mong thầy cô và bạn bè cho ý kiến để đề tài ngày càng hoàn thiện hơn. Một lần nữa, em xin chân thành cảm ơn! Tp. HCM, tháng 5 năm 2012 Bùi Chí Cường CH1101007 MỤC LỤC LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ iv 1 CHƯƠNG I - MỞ ĐẦU 5 1.1 Giới thiệu chung 5 1.2 Hoạt động nghiên cứu 5 2 CHƯƠNG II - THUẬT TOÁN C4.5 7 2.1 C4.5 dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất” 8 2.2 C4.5 có cơ chế riêng trong xử lý những giá trị thiếu 10 2.3 Tránh “quá vừa” dữ liệu 11 2.4 Chuyển đổi từ cây quyết định sang luật 12 2.5 C4.5 là một thuật toán hiệu quả cho những tập dữ liệu vừa và nhỏ 12 3 CHƯƠNG III – THUẬT TOÁN SPRINT 14 3.1 Cấu trúc dữ liệu trong SPRINT 15 3.2 SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập dữ liệu “tốt nhất” 17 3.3 Thực thi sự phân chia 20 3.4 SPRINT là thuật toán hiệu quả với những tập dữ liệu quá lớn so với các thuật toán khác 22 3 So sánh C4.5 và SPRINT 24 4 CHƯƠNG IV - KẾT LUẬN 25 4.1 Tóm tắt các kết quả đạt được 25 4.2 Tài liệu tham khảo 25 DANH MỤC CÁC HÌNH VẼ 5 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 1 CHƯƠNG I - MỞ ĐẦU 1.1 Giới thiệu chung. Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá d ữ liệu. Công nghệ này đã, đang và sẽ có nhiều ứng dụng trong các lĩnh vực thương m ạ i, ngân hàng, y tế, giáo dục…Trong các mô hình phân lớp đã được đề xuất, cây quy ế t định được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng khai phá dữ liệu. Thuật toán phân lớp là nhân tố trung tâm trong một mô hình phân l ớ p. Bài thu hoạch tập trung vào phân tích, đánh giá, so sánh hai thuật toán tiêu biểu cho hai phạm vi ứng dụng khác nhau là C4.5 và SPRINT. Với các chiến lược riêng về lựa chọn thuộc tính phát triển, cách thức lưu trữ phân chia dữ liệu, và một số đặc điểm khác, C4.5 là thuật toán phổ biến nhất khi phân lớp tập dữ liệu vừa và nhỏ, SPRINT là thuật toán tiêu biểu áp dụng cho những tập dữ liệu có kích thước cực lớn. Khóa luận đã chạy th ử nghiệm mô hình phân lớp C4.5 với tập dữ liệu thực và thu được một số kết quả phân lớp có ý nghĩa thực tiễn cao, đồng thời đánh giá được hiệu năng của mô hình phân l ớ p C4.5. Trên cơ sở nghiên cứu lý thuyết và quá trình thực nghiệm, khóa luận đã đề xu ấ t một số cải tiến mô hình phân lớp C4.5 và tiến tới cài đặt SPRINT. 1.2 Hoạt động nghiên cứu. Về lịch sử ra đời của hai thuật toán C4.5 và SPRINT. C4.5 là sự kế thừa của của thuật toán học máy bằng cây quyết định dựa trên nền tảng là kết quả nghiên cứu của ... thời gian làm việc thời gian cư trú, giúp ngân hàng đánh giá khách hàng định khách hàng có ứng viên tốt cho khoản vay, có rủi ro tiềm ẩn nhằm giảm thiểu tối đa rủi ro việc cấp tín dụng c Phát gian... ngân hàng việc phát gian lận Với giúp đỡ kỹ thuật khai phá liệu, hành động gian lận ngày phát nhiều Có hai phương pháp tiếp cận phổ biến phát triển tổ chức tài để phát mơ hình gian lận[4]  Phương... vào công việc kinh doanh ngân hàng tạo nên thay đổi lớn, việc thực giao dịch trở nên dễ dàng, đồng thời khối lượng liệu từ giao dịch tăng lên đáng kể Việc phân tích số lượng liệu thơ khổng lồ

Ngày đăng: 03/11/2017, 16:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w