Đồ án tốt nghiệp đại học kỹ thuật text mining và ứng dụng

78 1.3K 12
Đồ án tốt nghiệp đại học kỹ thuật text mining và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng LỜI NÓI ĐẦU Hệ thống cơ sở dữ liệu đã đánh dấu một bước thành công lớn trong hơn hai thập kỷ qua. Tìm kiếm các thông tin hữu ích trong các CSDL đã trở thành một điểm quan trọng trong hoạt động kinh doanh ngày càng có nhiều sự chú ý tới việc khai phá dữ liệu - Data Mining, đó như là một thành phần mấu chốt để khám phá thông tin. Các thuật toán khai phá dữ liệu các công cụ mô phỏng nó đã đang đựơc sử dụng để tìm kiếm các hình mẫu quan trọng ẩn chứa trong dữ liệu tạo ra các dự báo hữu ích. Khoa học này đã đang được chấp nhận trong hầu hết tất cả các bộ phận kinh doanh như ngân hàng, viễn thông, sản xuất, tiếp thị thương mại điện tử. Data Mining trong SQL 2005 là một bước tiến lớn trong hệ thống Data Mining công nghệ cao nhất về CSDL. Các kỹ nhà nghiên cứu từ rất nhiều tổ chức nghiên cứu đã làm việc cùng nhau để mang cả hai trường phái cổ điển công nghệ mới, mổ xẻ các khía cạnh công cụ Data Mining. Trong hệ thống các dạng Data Mining thì có một kiểu khai phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định dạng Text đóText Mining. Trong thời điểm hiện nay, phân tích các tài liệu dạng Text trở nên rất quan trọng. các dự án Textmining thực sự là một công cụ hổ trợ đắc lực trong việc phân nhóm, phân loại phân đoạn các dữ liệu không cấu trúc này nhằm thực hiện các vấn đề thiết thực trong cuộc sống cũng như hoạt động kinh doanh thương mại. Các lĩnh vực cần sử dụng Text Mining vào thực hiện các công việc trong thực tế rất nhiều, như thực hịên phân nhóm các thông tin phản hồi của khách hàng, thăm các ý kiến thông qua các Topic, Blog; phân loại các dạng bài post của một trang Web…Với SQL 2005, Data Mining nói chung Text Mining nói riêng thực sự đã trở thành các công cụ xây dựng các ứng dụng thông minh, hổ trợ đắc lực thiết thực cho mọi người trong việc giải quyết các vấn đề thực tế. Những vấn đề này được em phân tích xây dựng chi tiết trong nội dung đề tài: Tìm hiểu kỹ thuật Text Mining ứng dụng Em xin chân thành cảm ơn đã giúp đỡ em hoàn thành nội dung đề tài này. GVHD: TS. Nguyễn Mạnh Hùng - 1 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng MỤC LỤC GVHD: TS. Nguyễn Mạnh Hùng - 2 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng Chương I: Data Mining Text Mining 1. Data Mining 1.1 Giới thiệu Data Mining. Data Minning là một bộ phận quan trọng trong gia đình sản phẩm của kinh tế tri thức Business Intelligence (BI), với xữ lý phân tích thông tin trên mạng Online Analytical Processing (OLAP), cùng với báo cáo kinh doanh ETL (Extraction Transformation Loading). Data Mining là phân tích dữ liệu tự động tìm các phần mẫu còn ẩn hoặc các tiềm lực chung quan trọng, có ý nghĩa thực tế trong việc giải quyết một vấn đề thực tế. Trong suốt hàng thập kỹ qua các dữ liệu đã làm giàu thêm đã được lưu trữ trong các cơ sở dữ liệu lớn. Phần lớn những dòng dữ liệu đó là từ các phần mềm thương mại như là các ứng dụng về tài chính,viễn thông, quản lý nguồn dự án (ERP), quản lý liên hệ khách hàng (CRM), các trang Web trợ giúp. kết quả của quá trình kết hợp dữ liệu đó là một tổ chức giàu dữ liệu nghèo tri thức. Sự kết hợp các dữ liệu trở thành rộng lớn ngày càng tăng mạnh về dung lượng mà thực tế sử dụng điều này trong lưu trử các dữ liệu thì có hạn. Mục đích chính của Data Mining là khai phá các vấn đề từ các nguồn dữ liệu có sẵn, tăng giá trị bên trong của nó, chuyển nó thành tri thức. Chúng ta gặp rất nhiều khó khăn bởi vì không thể đào bới thêm ngoài các truy vấn SQL thông thường. Data Mining cung cấp rất nhiều giá trị giao dịch cho công việc kinh doanh. Dưới đây là số các lý do mà chúng ta quan tâm đến Data Mining: - Một số lượng lớn dữ liệu sẳn dùng: Qua các thập kỹ qua, giá của phần cứng, đặc biệt là các ổ cứng có dung lượng lớn đã hạ đột ngột. Đi cùng với nó, nhà kinh doanh thu thập được con số rất lớn dữ liệu qua các ứng dụng kinh doanh. Với tất cả các dữ liệu sẳn có đó, nhà kinh doanh rất mong muốn có một cách nào đó để tìm các phần tiềm ẩn để trợ giúp định hướng công việc kinh doanh của họ. - Sự cạnh tranh ngày càng tăng: Sự cạnh tranh ngày càng cao là kết quả của rất nhiều hình thức tiếp thị các kênh phân phối thông tin như Internet truyền thông. Các nhà kinh doanh phải đối phó với sự cạnh tranh khốc liệt rộng khắp chìa GVHD: TS. Nguyễn Mạnh Hùng - 3 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng khóa cho sự thành công là sự tài tình trong việc giữ lại các khách hàng hiện tại lôi kéo được các khách hàng mới về phía mình. Data Mining là công nghệ tích hợp mà cho phép nhà kinh doanh có thể phân tích các nhân tố mà ảnh hưởng đến kết quả đó. - Sẳn sàng về mặt công nghệ: Công nghệ Data Mining trước đó chỉ tồn tại trong phạm vi nghiên cứu ở các viện, nhưng hiện nay rất nhiều trong số chúng đã được làm hoàn thiện sẳn sàng áp dụng trong các ngành nghề lĩnh vực kinh doanh. Các thuật toán đang dần chính xác hơn, hiệu quả hơn, có thể xữ lý tốt hơn sự phức tạp của dữ liệu. Hơn nữa, giao diện lập trình ứng dụng Data Mining (APIs) đã đang được chuẩn hóa, chúng sẽ cho phép các nhà phát triển xây dựng các ứng dụng Data Mining tốt hơn nữa. 1.2 Các bài toán của Data Mining trong kinh doanh - Phân tích thị trường: Những khách hàng nào có khả năng lớn nhất để chuyển đổi sự cạnh tranh này? Truyền thông ngân hàng ngành bảo hiểm luôn đối phó với sự cạnh tranh khốc liệt hằng ngày. Trong số đó, mỗi một số điện thoại di động mới của người dùng sẽ phải trả cho công ty sản xuất điện thoại một số tiền vượt quá 200$ trong việc đầu tư vào tiếp thị sản phẩm. Công việc kinh doanh hằng ngày mong muốn giữ lại các khách hàng hiện tại là một vấn đề hợp lý. Phân tích thị trường có thể trợ giúp việc quản lý tiếp thị dưới mặt lý trí khách hàng, cải thiện mối quan hệ với khách hàng, cuối cùng là tăng thêm lòng tin tưởng, trung thành của các khách hàng với doanh nghiệp. - Trao đổi mua bán: Các sản phẩm nào mà khách hàng muốn mua về? trao đổi mua bán là một vấn đề thách thức quan trọng trong kinh doanh của các thương nhân. Rất nhiều thương nhân, đặc biệt là các nhà buôn bán qua mạng sử dụng điểm này để tăng cường sự trao đổi mua bán của họ. Ví dụ, Nếu bạn muốn lên mạng tìm sách trên mạng Amazon.com … để mua một quyển sách, bạn sẽ được khuyến cáo rằng các site đó cho bạn một tập các khuyến khích ý kiến tiếp thị về cuốn sách có liên quan. Tất cả các ý kiến đó có thể là xuất phát từ sự phân tích Data Mining. - Phát hiện gian lận trong kinh doanh: Cái gì có thể bảo đảm được lừa đảo tài chính. Bảo hiểm doanh nghiệp đang xữ lý hàng ngàn số tiền hàng ngày. Nó không GVHD: TS. Nguyễn Mạnh Hùng - 4 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng thể kiểm tra tính minh bạch của nó trong mọi trường hợp. Data Mining có thể giúp chúng ta nhận ra các khoản tiền mà có khả năng bị sai. - Quản lý rủi ro trong kinh doanh: Làm sao để sự cho vay được chấp thuận trong các khách hàng. Đó là một trong những câu hỏi phổ biến trong sự kiện các ngân hàng. Kỹ thuật Data Mining có thể được sử dụng để căn cứ mức rủi ro của khách hàng, trợ giúp những người quản lý để ra quyết định thích hợp. - Phân loại khách hàng: Ai là khách hàng của mình? Phân loại khách hàng giúp việc quản lý tiếp thị dưới mặt khác của khách hàng tạo nên cơ sở hoạt động tiếp thị thích hợp trong từng giai đoạn kinh doanh. - Mục đích quảng cáo: Các biểu ngữ quảng cáo sẽ được hiển thị trong các người viếng thăm đặc biệt? Web mua bán các cổng thông tin sẽ cá nhân hóa Web khách hàng của họ. Sử dụng điều hướng khách hàng mô hình mua bán trực tuyến, tất cả các cổng thông tin này có thể sử dụng dự án Data Mining để hiển thị mục đích quảng cáo cho sự điều hướng khách hàng của họ. - Dự báo thị trường: Có bao nhiêu trường hợp rượu của tôi có thể bán được trong tuần tới mà còn trong kho dự trữ? Cái gì sẽ phải kiểm kê trong tháng? Kỹ thuật dự báo của Data Mining có thể sử dụng để dự báo các câu hỏi với thời gian liên quan. 1.3 Nhiệm vụ của Data Mining Data Mining có thể sử dụng để giải quyết hàng trăm vấn đề của kinh doanh. Cơ sở bản chất của các vấn đề đó chúng ta có thể nhóm chúng vào các nhiệm vụ của Data Mining dưới đây: - Phép phân loại: Phân lọai là một trong rất nhiều các nhiệm vụ thông thường của Data Mining. Vấn đề kinh doanh như là phân tích thị trường, quản lý rủi ro, mục đích quảng cáo thường xuyên phải đòi hỏi phân loại. Sự phân loại chỉ dẫn các trường hợp vào trong cơ sở kinh doanh trên một thuộc tính dự đoán. Một trong các nội dung chứa đựng là tạo nên một tập các nội dung dự đoán. Một trong đó là các lớp thuộc tính (thuộc tính dự báo). Nhiệm vụ này đòi hỏi sự tìm kiếm một mẫu mà mô tả lớp thuộc tính như là các hàm của thuộc tính đầu vào. Cái đó thường xuyên liên quan đến dữ liệu lịch sử. Thuật toán Data Mining cần một mục tiêu hướng đến GVHD: TS. Nguyễn Mạnh Hùng - 5 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng thuật toán giám sát. Trong thuật toán phân loại, các mục tiêu được đưa vào Cây quyết định,Naïve Bayes, mạng Neural đưa ra quyết định. - Kỹ thuật Clustering (phân cụm): Kỹ thuật này cũng có thể được gọi là phân loại. Nó được sử dụng để nhận biết các nhóm tự nhiên của các trường hợp trên cơ sở một tập thuộc tính. Các trường hợp trong một nhóm tương tự nhau có nhiều hoặc ít các giá trị thuộc tính giống nhau. Clustering là một Data Mining không giám sát. Không có thuộc tính đơn nào được sử dụng để chỉ dẫn các xử lý. Tất cả các thuộc tính đầu vào được đối xử ngang bằng. Phần lớn các thuật toán Clustering được xây dựng thông qua một mẫu lặp lại chỉ dừng lại khi mô hình đã hồi quy, đó là khi ranh giới giữa các cụm trở nên rõ ràng ổn định. - Luật kết hợp: Luật kết hợp là một dạng phổ biến khác của các nhiệm vụ Data Mining. Kết hợp cũng được gọi là phân tích cái bọc thị trường. Sự kết hợp các vấn đề kinh doanh điển hình là để phân tích một bảng quản lý giao dịch mua bán nhận dạng các sản phẩm thường được giao bán trong một cửa hiệu. Cách dùng phổ biến của sự kết hợp để nhận dạng một tập các Items, nguyên tắc chỉ định các trao đổi mua bán (Rules). Trong các điều kiện của tập hợp, mỗi sản phẩm hay tổng quát hơn mỗi cặp thuộc tính giá trị được coi là như một Item. Nhiệm vụ tập hợp có hai hướng đi: Tìm tập các Item thường xuyên, tìm nguyên tắc kết hợp. Hầu hết các loại thuật toán về luật kết hợp tìm thấy thuộc tính thường xuyên bằng việc quét các dữ liệu phức tạp nhiều lần. Giới hạn thường xuyên (hổ trợ) là một định nghĩa bởi người sử dụng trước khi xử lý các mô hình. Mổi tập thường xuyên đó có một kích cỡ nhất định, đó là số các Items mà nó chứa đựng. Hầu hết các loại thuật toán luật kết hợp cũng là các nguyên tắc tìm kiếm. Một nguyên tắc tập hợp là có từ A,B => C với một xác suất, nơi A,B,C là các tập thường xuyên. Một xác suất là một giá trị tranh luận, mà người sử dụng cần nó để định rõ trước khi thực hiện mô hình tập hợp. - Hồi quy: Chức năng hồi quy tương tự sự phân loại. Cái khác chủ yếu là các thuộc tính dự báo là một số liên tục. Kỹ thuật hồi quy được nghiên cứu rộng rãi hàng trăm năm trong ngành khoa học thống kê. Hồi quy tuyến tính hồi quy hậu, là các phương thức hồi quy phổ biến. Mặt khác kỹ thuật hồi quy cũng được đưa vào các cây hồi quy mạng Neural. Chức năng hồi quy có thể giải quyết rất nhiều các vấn GVHD: TS. Nguyễn Mạnh Hùng - 6 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng đề của kinh doanh. Ví dụ chúng có thể được sử dụng để dự đoán tỉ lệ số vé hồi lại, phương thức phân phối khối lượng phân phối, hoặc là dự đoán tốc độ gió dựa trên nhiệt độ, áp suất độ ẩm không khí. - Dự báo: Dự báo là một chức năng quan trọng nữa của Data Mining. Giá trị của cổ phiếu Microsoft sẽ thế nào sau ngày mai? Số lượng bán ra của sản phẩm Pepsi sẽ thế nào trong tháng tới. Chức năng dự báo có thể trả lời tất cả các câu hỏi đó. Nó luôn giữ lấy một chuỗi các giá trị đầu vào của tập CSDL, ví dụ như chuổi các con số với một thuộc tính mô tả thời gian. Chuổi dữ liệu đặc trưng đó chứa đựng sự theo dỏi các sự kiện gần kề, chúng là các Order-Dependent. Kỹ thuật dự đoán công bằng, khách quan tác động tất cả các phương hướng, các chu kỳ lọc các tạp nhiễu. Đa số ưa chuộng kỹ thuật chuổi thời gian là ARIMA, đứng trên mô hình tự động quay lui hội nhập hoạt động trung bình. - Phép phân tích: Phép phân tích được sử dụng để tìm các phần mẫu trong một chuổi riêng biệt. Một chuổi sự kiện bao gồm một chuổi các giá trị rời rạc (hoặc các trạng thái rời rạc). Ví dụ chuỗi trình tự ADN là một chuỗi dài các trạng thái khác nhau: A, G, C T. Chuỗi sự kiện click vào Web là một chuỗi URLs. Khách mua hàng cũng có thể là mô hình như chuỗi sự kiện các dữ liệu. Cả hai chuỗi sự kiện chuỗi dữ liệu đều chứa đựng sự quan sát theo dõi liền kề sau đó mà gọi là các sự kiện ăn theo. Trong trường hợp khác đó là chuỗi các trạng thái riêng rẽ, trong khi chuỗi thời gian là bao gồm các con số liên tục. Chuỗi sự kiện luật kết hợp dữ liệu giống nhau ở điểm là mổi trường hợp riêng rẽ là một tập các Item hoặc các trạng thái. Cái khác nhau giữa các chuỗi sự kiện các mô hình kết hợp là mô hình phân tích các chuỗi sự kiện là trạng thái chuyển trong khi cái kia thì tính đến mỗi một Item trong một cửa hàng đến ngang nhau độc lập. Với mô hình chuỗi các sự kiện, thì việc mua một máy tính trước một tai nghe khác với việc mua một tai nghe trước máy tính. Với một thuật toán kết hợp thì sẽ có nhiều ý kiến trùng nhau trong một tập hợp các mục. Phân tích hướng sự kiện là một nhiệm vụ mới của Data Mining. Nó trở nên quan trọng hơn để được hưởng hai cái chính của ứng dụng là: Phân tích Web giải thích phân tích ADN. Có rất nhiều kỹ thuật phân tích chuỗi các sự kiện thông GVHD: TS. Nguyễn Mạnh Hùng - 7 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng thường, sẳn có ngày nay như là xích Markov. Các nhà nghiên cứu đã hoạt động khám phá ra các thuật toán mới trong lĩnh vực hoạt động này. - Phân tích độ lệch: Phân tích độ lệch là tìm ra các trường hợp hiếm có mà rất khác với tất cả các cái khác. Nó cũng được gọi là tìm kiếm ngoài, tìm kiếm các thông tin thay đổi quan trọng từ các tập dữ liệu lịch sử. Phân tích độ lệch được ứng dụng rất nhiều. Một ví dụ phổ biến đóứng dụng trong việc phát hiện gian lận việc sử dụng Credit Card. Nhận dạng các trường hợp dị thường trong hàng triệu các dữ liệu giao dịch là một vấn đề thách thức. Không có một kỹ thuật chuẩn nào cho việc phân tích độ lệch. Nó vẫn là một đề tài đang được nghiên cứu phát triển. Thường thì việc phân tích tận dụng các phiên bản của cây quyết định, Clustering, hoặc các thuật toán mạng Neural cho nhiệm vụ này. 1.4 Kỹ thuật Data Mining Mặc dù Data Mining là một lĩnh vực khá mới, phần lớn kỹ thuật Data Mining đã tồn tại nhiều năm. Nếu chúng ta thấy được gốc của các thuật toán Data Mining thông dụng, chúng ta sẽ thấy rằng chúng xuất phát từ 3 trường: Thống kê, máy thông minh CSDL. Phần lớn danh sách các nhiệm vụ của Data Mining trong phần trước đã có địa chỉ trong cộng đồng ngành thống kê. Một con số lớn thuật toán Data Mining, kể cả hồi quy, chuỗi thời gian, cây quyết định được phát minh bởi các nhà thống kê. Kỹ thuật hồi quy đã tồn tại cách đây 100 năm. Thuật toán chuỗi thời gian được đã được nghiên cứu hàng thập kỹ nay. thuật toán cây quyết định là một trong những kỹ thuật mới nhất hiện nay, nằm trong khoảng giữa thập kỹ 80. Data Mining nổi bật trên lĩnh vực tự động hóa, hoặc phát hiện các mô hình chung. Các thiết bị được trang bị thuật toán thông thường đều được sử dụng Data Mining. Mạng Neural là một trong những kỹ thuật đó tiêu biểu cho phân loại hồi quy, đặc biệt nhất là khi mối liên hệ các thuộc tính là không tuyến tính. Thuật toán di truyền học là một trong những kỹ thuật khác của máy thông minh. Nó tái tạo quá trình xử lý tiến hóa tự nhiên bằng cách làm việc với một tập các ứng viên một chức năng tồn tại hoặc thích hợp. Hàm tồn tại này chọn lựa lặp đi lặp lại nhiều lần các ứng viên phù hợp trong quá trình vận động tiếp theo. Thuật toán di truyền học có thể được sử dụng trong cho phân loại Clustering. Chúng cũng có thể sử dụng trong dùng chung với các thuật GVHD: TS. Nguyễn Mạnh Hùng - 8 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng toán khác như trường hợp trợ giúp một mạng Neural để tìm một tập tốt nhất trong mổi trọng số noron thành viên bao quanh. Một CSDL là một nguồn cơ sở thứ ba cho phát triển Data Mining. Khoa học thống kê truyền thống thừa nhận rằng tất cả các CSDL có thể được nạp vào bộ nhớ cho phân tích thống kê. Đáng tiếc, nó chưa được phổ biến trong thời điểm hiện đại. CSDL chuyên nghiệp biết bao nhiêu số lượng lớn dữ liệu phải xữ lý mà không xứng với bộ nhớ. Như việc tìm một nguyên tắc trong một bảng thực tế chứa đựng trong nó hàng triệu các giao dịch mua bán. Như một vấn đề của thực tế, thì các thuật toán tập hợp có hiệu quả đến từ việc nghiên cứu các CSDL cộng đồng. Cũng có một vài các phiên bản cao hơn của thuật toán phân loại kỹ thuật Clustering mà sử dụng trong kỹ thuật CSDL, bao gồm cả kỹ thuật thuật toán Clustering của Microsoft. 1.5 Các thuật toán Data Mining. 1.5.1 Thuật toán Naive Bayes: a. Trường hợp áp dụng: Thuật toán này cho phép tạo mô hình một cách nhanh chóng, đơn giản. Thuật toán được ứng dụng vào các mô hình phân tích dự báo, phân loại, phân lớp. Thuật toán chỉ hỗ trợ các thuộc tính rời rạc (discrete, ví dụ: Gới tính), nếu tạo một mô hình Naïve Bayes với thuộc tính liên tục (continuous, ví dụ: tuổi) sẽ sinh ra lỗi. b. Nguyên tắc của thuật toán: Thuật toán sử dụng kết hợp xác xuất có điều kiện không có điều kiện theo công thức: ( ) )( )()|( | EP HPHEP EHP × = Trong đó: H: là giả thuyết E: là điều kiện P(H|E): là xác suất của giả thuyết H với điều kiện E P(E|H): là xác suất của điều kiện E với giả thuyết H c. Các tham số của thuật toán: Vì sự thực hiện của thuật toán không phức tạp nên nó không đòi hỏi nhiều tham số. Naïve Bayes có các tham số sau: GVHD: TS. Nguyễn Mạnh Hùng - 9 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng - MAXIMUM_INPUT_ATTRIBUTES: Xác định số thuộc tính đầu vào cho huấn luyện. Nếu có nhiều hơn số thuộc tính đầu vào này thì thuật toán sẽ chọn các đầu vào quan trọng nhất bỏ qua các thuộc tính còn lại. Thiết lập tham số này bằng 0 để thuật toán chọn tất cả các thuộc tính. Giá trị mặc định là 255. - MAXIMUM_OUTPUT_ATTRIBUTES: Xác định số thuộc tính đầu ra cho huần luyện. Nếu có nhiều hơn số thuộc tính đầu ra này thì thuật toán sẽ chọn các đầu ra quan trọng nhất bỏ qua các thuộc tính còn lại. Thiết lập tham số này bằng 0 để thuật toán chọn tất cả các thuộc tính. Giá trị mặc định là 255. - MAXIMUM_STATES: điều khiển bao nhiêu trạng thái của một thuộc tính được xem xét. Nếu một thuộc tính có nhiều trạng thái hơn số này, chỉ các trạng thái phổ biến nhất sẽ được sử dụng. Các trạng thái không được chọn sẽ được xem là dữ liệu lỗi. Tham số này hữu ích khi một thuộc tính có nhiều trạng thái. - MINIUMUM_DEPENDENCY_PROBABILITY: Là số đo từ 0 đến 1 khả năng xảy ra như thế nào của một thuộc tính đầu vào dự báo một thuộc tính đầu ra. Thiết lập tham số này không làm ảnh hưởng đến huấn luyện mô hình hay dự đóan; hơn nữa, nó cho phép giảm số lượng nội dung được server trả lại từ nội dung truy vấn. Thiết lập giá trị này bằng 0.5 trả lại chỉ các thuộc tính đầu vào có khả năng hơn ngẫu nhiên tương quan với các đầu ra. Nếu bạn browse một mô hình không tìm thấy bất kì thông tin nào, thử giảm giá trị này xuống cho đến khi quan sát được sự tương quan. Giá trị mặc định là 0,5. d. DMX: Vì Naïve Bayes là thuật toán khá đơn giản nên có thể tạo mô hình huấn luyện bằng lệnh DMX chuẩn CREATE MINING MODEL Tên mô hình ( [ID] LONG KEY, [Tên thuộc tính] TEXT DISCRETE PREDICT, [Tên thuộc tính] TEXT DISCRETE,… )USING Microsoft_Naive_Bayes Huấn luyện có thể dùng cấu trúc lệnh INSERT INTO chuẩn. Có thể sử dụng lệnh INSERT INTO đơn giản bằng cách không cần xác định bất kỳ tên cột nào, chẳng hạn: GVHD: TS. Nguyễn Mạnh Hùng - 10 - HVTH: Đậu Hoài Nam [...]... Tùy vào từng mục đích yêu cầu công việc mà lựa chọn các thuật toán cho phù hợp với mô hình Text Mining Mô hình Text Mining thực hiện các bước như minh họa dưới đây: GVHD: TS Nguyễn Mạnh Hùng - 28 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng Hình 6: Các bước thông thường của Text Mining GVHD: TS Nguyễn Mạnh Hùng - 29 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining. .. thuật ngữ tần số xuất hiện của nó, dựa trên tham chiếu của trường văn bản cần khai phá bảng từ điển thuật ngữ vừa xây dựng GVHD: TS Nguyễn Mạnh Hùng - 30 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng • Đưa dữ liệu có cấu trúc vừa biến đổi vào một mô hình Data Mining sử dụng các thuật toán Data Mining đã trình bày trong mục 1.5 để thực hiện quá trình khai phá dữ liệu Text. .. văn bản text Cuối cùng, Text Mining sẽ thực hiện đưa dữ liệu đã phân tích biến đổi vào các thuật toán để thực hiện các nhiệm vụ khai phá các tri thức trong đó dựa vào các thuật toán công cụ Data Mining Một điển hình là nó được hổ trợ rất tốt trong Business Intelligence Development của SQL 2005 2.2 Thuật toán hổ trợ các bước tiến hành Kỹ thuật Text Mining được hổ trợ hầu hết các thuật toán đã trình... thi mô hình Text Mining thì bước quan trọng đầu tiên là thực hiện biến đổi dữ liệu từ không có cấu trúc thành dữ liệu có cấu trúc Các dữ liệu dạng Text được chuẩn hóa biến đổi trước khi đưa vào một mô hình Data Mining sử dụng các thuật toán Data Mining như chúng ta đã nêu ở trên Các thành GVHD: TS Nguyễn Mạnh Hùng - 23 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng phần của... công việc Việc phát triển các ứng dụng tìm kiếm trên mạng có lẽ sẽ quan trọng hơn nữa nếu có tích hợp các công cụ mạnh hơn, ví dụ Text mining tools Hình 5: Ứng dụng Text Ming trong Web-search GVHD: TS Nguyễn Mạnh Hùng - 26 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng • Business Intelligence: Business intelligence (BI) bao gồm một tập các kỹ thuật thuật khác nhau dùng cho các... văn bản chứa trong chúng Chúng ta có thể hình dung kỹ thuật đó tiến hành một cách có thứ bậc với việc phân loại văn bản tài liệu, trích rút thuật ngữ sử dụng nó cho các dạng phân tích GVHD: TS Nguyễn Mạnh Hùng - 27 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng khác tiếp theo Chúng sử dụng các kỹ thuật thống kê, phân loại, xử lý các tự có trong một văn bản để thực hiện... dịch bất động sản dựa vào thông tin GVHD: TS Nguyễn Mạnh Hùng - 12 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng lý lịch thu nhập của họ, hoặc dùng trong các tác vụ hồi qui nhận dạng Thuật toán Neural Network hỗ trợ cả thuộc tính rời rạc thuộc tính liên tục b Nguyên tắc của thuật toán: Nguồn gốc của Neural Network có thể được phát hiện đầu tiên vào thập kỷ 40, từ hai... cụ Text Mining đặt các quy tắc kỹ thuật ngôn ngữ học (natural language) để phân tích cú pháp ngữ pháp mô hình cấu trúc vốn có của các văn bản Text nguyên bản Thứ hai, từ các dữ liệu không cấu trúc đó, phải có các tùy chỉnh phù hợp để đưa các mô hình Text Mining vào xử lý trên việc phân tích mô hình hóa chúng GVHD: TS Nguyễn Mạnh Hùng - 24 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining. .. key, Gender text discrete, Marital_Status text discrete, Income long continuous, Age long continuous, Education text discrete, HouseOwnership text discrete predict )Using Microsoft_Neural_Network Sau khi tạo mô hình có thể huấn luyện mô hình sau đó browse GVHD: TS Nguyễn Mạnh Hùng - 22 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng 2 Text Mining 2.1 Giới thiệu Text mining Trong... phá dữ liệu Text • Sử dụng các tri thức sau khi thực hiện khai phá mô hình Data Mining để xây dựng các ứng dụng tiếp theo Cụ thể các bước xây dựng được trình bày trong phần II ứng dụng thực hiện trong đề tài GVHD: TS Nguyễn Mạnh Hùng - 31 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining ứng dụng Chương II: SQL Server Integration Services (SSIS) Trong một dự án Data Mining điển hình, bước . Nam Đồ án tốt nghiệp Kỹ thuật Text Mining và ứng dụng MỤC LỤC GVHD: TS. Nguyễn Mạnh Hùng - 2 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining và ứng dụng Chương I: Data Mining và Text Mining 1 HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining và ứng dụng đề của kinh doanh. Ví dụ chúng có thể được sử dụng để dự đoán tỉ lệ số vé hồi lại, phương thức phân phối và khối lượng phân. sản dựa vào thông tin GVHD: TS. Nguyễn Mạnh Hùng - 12 - HVTH: Đậu Hoài Nam Đồ án tốt nghiệp Kỹ thuật Text Mining và ứng dụng lý lịch và thu nhập của họ, hoặc dùng trong các tác vụ hồi qui và nhận

Ngày đăng: 19/06/2014, 20:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan