Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
0,99 MB
Nội dung
HỆ HỖ TRỢ RA QUYẾT ĐỊNH MỤC LỤC CH1301065– CH1301046 Trang 1 HỆ HỖ TRỢ RA QUYẾT ĐỊNH A. GIỚI THIỆU Quản lý và khai thác dữ liệu dữ liệu là một phần không thể thiếu đối với việc phát triển của các hệ thống thông tin. Sự bùng nổ internet dẫn đến sự phát triển vượt bậc trong lĩnh vực công nghệ thông tin bao gồm các phương tiện truyền thông, kỹ thuật số và các phương thức kinh doanh, tiếp thị phi truyền thống. Kéo theo đó là sự phát triển, gia tăng mạnh mẽ của dữ liệu về số lượng lẫn chủng loại.Các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu này, các kỹ thuật trong Khai Phá Dữ Liệu (KPDL) có thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết. Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu, tạo điều kiện cho các doanh nghiệp, các tổ chức thu thập và sở hữu được khối lượng thông tin khổng lồ. Để khai thác hiệu quả nguồn thông tin từ các CSDL lớn đó để hỗ trợ cho tiến trình ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm mới để hỗ trợ tiến trình khám phá, phân tích và tổng hợp thông tin. Data Mining ra đời như một hướng giải quyết hữu hiệu , Data Mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. Hay là một quá trình học tri thức mới từ những dữ liệu đã thu thập được . Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính hiện nay đang được phát triển rất mạnh mẽ. Nó kết hợp giữa học máy, công nghệ cơ sở dữ liệu và một số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thông tin dự báo, từ những cơ sở dữ liệu lớn. Chúng em xin áp dụng mạng neural theo giải thuật lan truyền ngược. Trong phạm vi một bài tiểu luận nhỏ, chúng em chỉ xin trình bày về “Ứng dụng mạng neuron trong nhận dạng ký tự quang học”. Bài tiểu luận này sẽ giới sơ lược về Data Mining . Đặt biệt là xây dựng ứng dụng mạng neural trong nhận dạng ký tự. Đồng thời cũng đưa ra một hướng ứng dụng mạng neural và giải thuật lan truyền ngược. Em xin chân thành cảm ơn Thầy PGS.TS . Đỗ Phúc đã truyền đạt kiến thức quý báu về DSS . Thầy đã cung cấp cho tôi rất nhiều tài liệu bổ ích để tôi có thể hiểu sâu sắc hơn về lĩnh vực này. Chân thành cảm ơn Thầy! CH1301065– CH1301046 Trang 2 HỆ HỖ TRỢ RA QUYẾT ĐỊNH B. NỘI DUNG CH1301065– CH1301046 Trang 3 HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHƯƠNG I : KHAI PHÁ DỮ LIỆU 1. Khai phá dữ liệu 1.1Giới thiệu Khai phá dữ liệu (KPDL) là tiến trình khám phá tri thức tiềm ẩn trong CSDL. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn. KPDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Nguồn dữ liệu phục vụ cho KPDL có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc. Nói như vậy không có nghĩa là KPDL không thể thực hiện ở các CSDL nhỏ. KPDL chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện nổi hoặc nếu thực hiện được thì hiệu quả không cao. Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging (nạo vét dữ liệu). 1.2Hai dạng khai phá dữ liệu • KPDL theo hướng kiểm tra: Người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết (bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê …). • KPDL theo hướng khám phá: Tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ. Do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của các thuật giải tìm kiếm. 1.3Ứng dụng của khai phá dữ liệu Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình: • Giải thích dữ liệu: Cung cấp sự hiểu biết sâu sắc và rất hữu ích về hành vi của các đối tượng, giúp cho các doanh nghiệp hiểu rõ hơn những khách hàng của họ. o Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) CH1301065– CH1301046 Trang 4 HỆ HỖ TRỢ RA QUYẾT ĐỊNH o Tài chính và thị trường chứng khoán (finance & stock market) • Dự báo: dự đoán giá trị của những đối tượng mới. o Khuynh hướng mua hàng của khách hàng. o Xác định rủi ro tín dụng đối với một khách hàng. o Định hướng tập trung nguồn lực của doanh nghiệp. 1.4Quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi: • Data sources (các nguồn dữ liệu) • Data warehouse (kho dữ liệu) • Task-relevant data (dữ liệu cụ thể sẽ được khai phá) • Patterns (mẫu kết quả từ khai phá dữ liệu) • Knowledge (tri thức đạt được) CH1301065– CH1301046 Trang 5 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Quá trình khám phá tri thức là một chuỗi lặp gồm 7 bước: • Data cleaning (làm sạch dữ liệu): Loại bỏ nhiễu và các dữ liệu không cần thiết • Data integration (tích hợp dữ liệu) : Quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). • Data selection (chọn lựa dữ liệu): Trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data). • Data transformation (biến đổi dữ liệu): Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý • Data mining (khai phá dữ liệu): Là một trong các bước quan trọng nhất,trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu. • Pattern evaluation (đánh giá mẫu): Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó. • Knowledge presentation (biểu diễn tri thức): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng. CH1301065– CH1301046 Trang 6 HỆ HỖ TRỢ RA QUYẾT ĐỊNH 1.5Các bài toán thông dụng trong khai phá dữ liệu 1.5.1Khai thác tập phổ biến và luật kết hợp Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý khách hàng, từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn kho, …là dạng luật biểu diễn tri thứ ở dạng khá đơn giản.Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y. Ví dụ: Trong CSDL bán hàng, có một luật kết hợp tiêu biểu như sau: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, .v.v. 1.5.2Khai thác mẫu tuần tự Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian. Một luật mô tả tuần tự có dạng tiêu biểu X → Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Một luật thể hiện mẫu tuần tự tiêu biểu: “Có 80% khách hàng mua Áo thun Việt Tiến, mua bóng Động Lực thì sau 3 ngày mua quần Việt Tiến”. Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng. CH1301065– CH1301046 Trang 7 HỆ HỖ TRỢ RA QUYẾT ĐỊNH 1.5.3Phân lớp dữ liệu Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các luật phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển. Áp dụng vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phân lớp khách hàng. Một luật phân lớp có dạng tiêu biểu như sau: “Nếu khách hàng ở khu vực 1 và có doanh số năm trước > 200 triệu và có cửa hàng ở khu thị tứ thì thuộc loại khách hàng có thể giao hàng trước trả tiền sau”. 1.5.4Khai thác cụm Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng gom cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát tổng kết nhanh chóng nội dung của khối dữ liệu lớn. 2. Phân lớp dữ liệu Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước. Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hình. 1) Xây dựng mô hình: Nhằm mục tiêu mô tả một tập những lớp đã được định nghĩa trước trong đó mỗi bộ hoặc mẫu sẽ được gán về một lớp đã xác định trước bởi thuộc tính phân lớp. Tập hợp những bộ được dùng để xây dựng mô hình được gọi là tập dữ liệu học (tập học). Mô hình được biểu diễn dưới dạng luật phân lớp, cây quyết định hoặc công thức toán học, … 2) Vận hành mô hình: Nhằm mục đích xác định lớp của dữ liệu trong tương lai hoặc phân lớp những đối tượng chưa biết. Trước khi vận hành mô hình cần đánh giá độ chính xác của mô hình trong đó các mẫu kiểm tra (đã biết được lớp) được đem so CH1301065– CH1301046 Trang 8 HỆ HỖ TRỢ RA QUYẾT ĐỊNH sánh với kết quả phân lớp của mô hình. Độ chính xác là phần trăm của số mẫu kiểm tra được phân lớp đúng. Lưu ý, tập kiểm tra và tập học là hai tập độc lập với nhau. 2.1Phân Lớp Quy Nạp Trên Cây Quyết Định Cây quyết định gồm các nút trong biểu diễn giá trị thuộc tính, các nhánh biểu diễn đầu ra của kiểm tra, nút lá biểu diễn nhãn lớp. Cây quyết định được tạo theo hai giai đoạn là tạo cây và tỉa nhánh. Trong giai đoạn tạo cây, lúc bắt đầu tất cả các mẫu học đều nằm ở nút gốc, sau đó các mẫu học được phân chia một cách đệ quy dựa trên thuộc tính được chọn. Bước tỉa nhánh nhằm tìm và xóa những nhánh có phần tử không thể xếp vào lớp nào cả. Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giá trị trên nhánh của cây quyết định. 2.1.1 Thuật toán tạo cây quyết định • B1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị. • B2: Ban đầu, tất cả mẫu học đều nằm ở gốc. • B3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc hóa). • B4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn lựa. • B5: Kiểm tra những thuộc tính được chọn dựa trên heuristic hoặc của một tiêu chuẩn thống kê. 2.1.2 Điều kiện để dừng phân chia tập học: • Tất cả những mẫu học đối với một nút cho trước đều cùng một lớp. • Không còn thuộc tính nào để phân chia tiếp. • Không còn mẫu học. 2.1.3 Độ lợi thông tin: (Information Gain) Là đại lượng được dùng để chọn thuộc tính nhằm phân chia tập học. Thuộc tính được chọn là thuộc tính có độ lợi thông tin lớn nhất. Cho hai lớp P và N và tập học S. Lớp P có p phần tử, lớp N có n phần tử. Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định bởi: np n np n np p np p npI ++ − ++ −= 22 loglog),( CH1301065– CH1301046 Trang 9 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Giả sử, thuộc tính A được chọn để phân hoạch S thành các tập hợp {S 1 , S 2 , …, S v }. Nếu S i chứa p i mẫu của lớp P và n i mẫu của lớp N i thì entropy cần để phân loại các đối tượng trong cây con S i là: ),()( 1 ii v i ii npI np np AE ∑ = + + = Độ lợi thông tin của nhánh A là: Gain(A) = I(p,n) – E(A) 2.2Phương Pháp Phân Lớp Bayes 2.2.1 Sự phân hoạch và công thức Bayes Cho H 1 , H 2 , …, H n là một phân hoạch không gian mẫu M và A là biến cố bất kỳ trong M, ta có: )/()()( 1 i n i i HAPHPAP ∑ = = Các xác suất P(H i ) và P(A/H i ) thường được biết trước khi thực hiện phép thử và được gọi là xác suất tiên nghiệm. Xác suất P(A/H i ) cho biết khả năng tham gia của H i vào việc xảy ra biến cố A. Xác suất P(A/H i ) được gọi là xác suất hậu nghiệm. Có thể tính xác suất hậu nghiệm từ các xác suất tiên nghiệm theo công thức sau: )( )/()( )/( AP HAPHP AHP ii ii = ∑ = = n k kk ii i HAPHP HAPHP AHP 1 )/()( )/()( )/( Định lý Bayes: Cho H 1 , H 2 , …, H n là một phân hoạch không gian mẫu và A là biến cố trong M. Khi đó với mọi i = 1, …, n ta có: CH1301065– CH1301046 Trang 10 [...]... lượt lan truyền Lớp input Các lớp ẩn CH1301065– CH1301046 mạng lan truyền ngược hai lớp ẩn Trang 29 Mô hình Lớp ouput HỆ HỖ TRỢ RA QUYẾT ĐỊNH 7.2 Nguyên tắc hoạt động của mạng lan truyền ngược Để tìm hiểu về nguyên tắc hoạt động của mạng lan truyền ngược ta định nghĩa thêm hai loại tín hiệu sau: • Tín hiệu hàm(function signal): là một tín hiệu (stimulus) xuất phát từ đầu vào của mạng (lớp input), lan truyền. .. hình mạng neural dựa trên số lớp của nó 4 Mạng neural một lớp CH1301065– CH1301046 Trang 22 HỆ HỖ TRỢ RA QUYẾT ĐỊNH pS a = f(Wp+b) Một lớp trong mạng neural là một nhóm các neuron có đặc điểm tương tự nhau, nghĩa là chúng nhận cùng những tín hiệu đầu vào nhưng với các trọng có thể khác nhau CH1301065– CH1301046 Trang 23 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Mạng neural một lớp là mạng chỉ có một lớp nhận. .. mạng lan truyền ngược mà ta sẽ trình bày dưới đây 7 Mạng lan truyền ngược 7.1 Định nghĩa Mạng lan truyền ngược là mạng neural nhiều lớp, bao gồm một lớp input, một lớp output và một hay nhiều lớp ẩn Trong mạng thông tin được truyền từ lớp này qua lớp kia theo cả hai chiều tiến và chiều ngược Suốt quá trình lan truyền ngược, các bộ trọng số được cập nhật sao cho sai số giữa giá trị output và kết quả mong... đầu ra của mạng( lớp output) • Tín hiệu lỗi (error signal): là tín hiệu xuất phát từ đầu ra của mạng, lan truyền theo chiều ngược, cũng qua lần lượt các lớp ẩn, kết thúc tại đầu vào của mạng CH1301065– CH1301046 Trang 30 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Tín hiệu hàm Tín hiệu lỗi Trong một ứng dụng mạng lan truyền ngược, có hai quá trình tính toán phân biệt nhau Thứ nhất là quá trình lan truyền tiến và thứ hai... pháp học cho máy tính có mô hình tương tự như vậy, nhằm đạt được một kết quả tốt như mong muốn, đó là mạng neural nhân tạo Các thành phần cơ bản của mạng neural nhân tạo được so sánh với các local circuits và interrigional circuits 2 Thành phần chính của mạng neural Mô hình bộ não và mạng neural sinh học CH1301065– CH1301046 Trang 17 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Một mạng neural thông thường có các thành phần... của cung mạng nối từ neuron i đến neuron j và f là một hàm truyền Trong quá trình lan truyền ngược, tín hiệu lỗi xuất phát từ lớp ouput lan truyền ngược về phía trái Trong khi lan truyền các trọng số được cập nhật theo chiều hướng làm giá trị output xích gần giá trị mong muốn hơn CH1301065– CH1301046 Trang 31 HỆ HỖ TRỢ RA QUYẾT ĐỊNH 7.3 Thuật giải lan truyền ngược y0 = -1 dj(n) wj0 (n) =j(n) yi(n) wji(n)... người Trước khi đi vào nghiên cứu sâu hơn về mạng Neural, ta tìm hiểu sơ lược về hoạt động của não bộ con người CH1301065– CH1301046 Trang 15 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Hệ thần kinh con người có thể đuợc chia thành ba bộ phận: • Bộ phận trung tâm được gọi là não bộ, nó được biểu diễn bởi mạng neural, tiếp nhận thông tin, xử lý thông tin và đưa ra một quyết định thích hợp • Bộ phận tiếp nhận (Receptors)... Đầu vào của các neuron output chính là các nút input x 1,x2,…,xp Mô hình mạng neural một lớp 5 Mạng neural nhiều lớp Mạng neural nhiều lớp là mạng neural gồm có hai hay nhiều lớp tính toán, nghĩa là ngoài lớp input và lớp output, còn có một số lớp xen giữa hai lớp này gọi là các lớp ẩn Lớp input CH1301065– CH1301046 Lớp ẩn Trang 24 Lớp ouput HỆ HỖ TRỢ RA QUYẾT ĐỊNH Nguyên tắc hoạt động cơ bản của mạng. .. tạo ra bởi sự lai ghép và đột biến 2.6 Tiếp cận tập thô Tập thô được sử dụng để xấp xỉ hoặc định nghĩa “thô” những lớp tương đương Một tập thô cho một lớp C được xấp xỉ bởi hai tập hợp xấp xỉ dưới và xấp xỉ trên CH1301065– CH1301046 Trang 13 HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHƯƠNG II : MẠNG NEURAL LAN TRUYỀN NGƯỢC Đầu tiên ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warrn McCulloch và nhà logic học Walter... perceptron là mạng neural được hình thành từ một neuron đơn với hàm truyền là hàm signum sgn(v) = ≥ 1 nếu v 0 −1 x1 w1 x2 w2 wp p ∑ wi xi − θ i =1 xp CH1301065– CH1301046 Trang 25 Mô hình mạng perceptron f(vj) yk HỆ HỖ TRỢ RA QUYẾT ĐỊNH 6.2 Nguyên tắc hoạt động Mục đích của mạng perceptron là phân loại tập các tín hiệu đầu vào x 1,x2,…,xp vào hai lớp X1 và X2 dựa vào nguyên lý: • xj được đưa vào X1 nếu . xây dựng ứng dụng mạng neural trong nhận dạng ký tự. Đồng thời cũng đưa ra một hướng ứng dụng mạng neural và giải thuật lan truyền ngược. Em xin chân thành cảm ơn Thầy PGS.TS . Đỗ Phúc đã truyền. của mạng neural Mô hình bộ não và mạng neural sinh học CH1301065– CH1301046 Trang 17 HỆ HỖ TRỢ RA QUYẾT ĐỊNH Một mạng neural thông thường có các thành phần chính sau đây: • Soma là thân của neural. •. họ. o Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) CH1301065– CH1301046 Trang 4 HỆ HỖ TRỢ RA QUYẾT ĐỊNH o Tài chính và thị trường chứng khoán (finance &