Ứng dụng phương pháp luận sáng tạo khoa học trong tin học – Rút trích và phân tích dữ liệu
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Công Nghệ Thông Tin … Báo Cáo Đề Tài Nội Dung : Ứng dụng phương pháp luận sáng tạo khoa học trong tin học – Rút trích và phân tích dữ liệu Môn: Phương pháp luận sáng tạo khoa học Giáo viên hướng dẫn : GS.TSKH Hoàng Văn Kiếm Sinh viên thực hiện: Nguyễn Hoàng Hiếu MSSV: 07520118 Lớp: KHMT02 Ứng dụng phương pháp luận sáng tạo khoa học trong tin học LỜI CẢM ƠN Em xin chân thành cám ơn tất cả các thầy, cô giáo đã giảng dạy em trong suốt thời gian qua. Em xin cảm ơn GS-TSKH Hoàng Văn Kiếm truyền đạt cho em những kiến thức quý báu về Phương pháp luận sáng tạo khoa học giúp em hoàn thành tốt đề tài này. Bài làm của em có thể còn nhiều thiếu sót do kiến thức có hạn và thời gian không cho phép. Em rất mong nhận được sự đóng góp quí báu của các thầy cô. Thành phố Hồ Chí Minh, ngày 5 tháng 1 năm 2011 Sinh viên Nguyễn Hoàng Hiếu 2 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học MỤC LỤC MỤC LỤC 3 1. Vấn đề khoa học 5 2. Phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế 5 TÀI LIỆU THAM KHẢO 32 A. NGHIÊN CỨU KHOA HỌC I. Khái niệm khoa học 3 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Khoa học là quá trình nghiên cứu nhằm khám phá ra những kiến thức mới, học thuyết mới… về tự nhiên và xã hội. Những kiến thức hay học thuyết mới nầy, tốt hơn, có thể thay thế dần những cái cũ, không còn phù hợp. Khoa học bao gồm một hệ thống tri thức về qui luật của vật chất và sự vận động của vật chất, những qui luật của tự nhiên, xã hội, và tư duy. Hệ thống tri thức này hình thành trong lịch sử và không ngừng phát triển trên cơ sở thực tiễn xã hội. II. Phân loại khoa học Có nhiều hướng phân loại khoa học: theo nguồn gốc, theo mục đích ứng dụng, theo mức độ khái quát, theo tính tương liên, theo cơ cấu hệ thống tri thức, theo đối tượng nghiên cứu. III. Nghiên cứu khoa học Nghiên cứu khoa học là một hoạt động tìm kiếm, xem xét, điều tra, hoặc thử nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm nghiên cứu khoa học để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên và xã hội, và để sáng tạo phương pháp và phương tiện kỹ thuật mới cao hơn, giá trị hơn. 4 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học B. PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC I. Khái niệm Phương pháp luận sáng tạo và đổi mới là phần ứng dụng của Khoa học về sáng tạo, bao gồm hệ thống các phương pháp và các kĩ năng cụ thể giúp nâng cao năng suất và hiệu quả, về lâu dài tiến tới điều khiển tư duy sáng tạo của người sử dụng. II. Những nội dung chính trong Phương Pháp Luận Sáng Tạo Và Đổi Mới 1. Vấn đề khoa học Vấn đề khoa học là câu hỏi đặt ra khi người nghiên cứu đứng trước mâu thuẫn giữa tính hạn chế của tri thức khoa học hiện có với yêu cầu phát triển tri thức đó ở trình độ cao hơn. 2. Phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế Có 40 thủ thuật (nguyên tắc) sáng tạo cơ bản: 1) Nguyên tắc phân nhỏ 2) Nguyên tắc “tách khỏi” 3) Nguyên tắc phẩm chất cục bộ 4) Nguyên tắc phản đối xứng 5) Nguyên tắc kết hợp 6) Nguyên tắc vạn năng 5 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học 7) Nguyên tắc “chứa trong” 8) Nguyên tắc phản trọng lượng 9) Nguyên tắc gây ứng suất sơ bộ 10) Nguyên tắc thực hiện sơ bộ 11) Nguyên tắc dự phòng 12) Nguyên tắc đẳng thế 13) Nguyên tắc đảo ngược 14) Nguyên tắc cầu (tròn) hoá 15) Nguyên tắc linh động 16) Nguyên tắc giải “thiếu” hoặc “thừa” 17) Nguyên tắc chuyển sang chiều khác 18) Nguyên tắc sử dụng các dao động cơ học 19) Nguyên tắc tác động theo chu kỳ 20) Nguyên tắc liên tục tác động có ích 21) Nguyên tắc “vượt nhanh” 22) Nguyên tắc biến hại thành lợi 23) Nguyên tắc quan hệ phản hồi 24) Nguyên tắc sử dụng trung gian 25) Nguyên tắc tự phục vụ 26) Nguyên tắc sao chép (copy) 6 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học 27) Nguyên tắc “rẻ” thay cho “đắt” 28) Thay thế sơ đồ cơ học 29) Sử dụng các kết cấu khí và lỏng 30) Sử dụng vỏ dẻo và màng mỏng 31) Sử dụng các vật liệu nhiều lỗ 32) Nguyên tắc thay đổi màu sắc 33) Nguyên tắc đồng nhất 34) Nguyên tắc phân hủy hoặc tái sinh các phần 35) Thay đổi các thông số hoá lý của đối tượng 36) Sử dụng chuyển pha 37) Sử dụng sự nở nhiệt 38) Sử dụng các chất oxy hoá mạnh 39) Thay đổi độ trợ 40) Sử dụng các vật liệu hợp thành (composite) 7 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học C. ÁP DỤNG MỘT SỐ THỦ THUẬT SÁNG TẠO CƠ BẢN VÀO ỨNG DỤNG THỰC TẾ GIẢI QUYẾT VẤN ĐỀ TRONG TIN HỌC – RÚT TRÍCH VÀ PHÂN TÍCH DỮ LIỆU 1. Đặt vấn đề: Khi thương mại điện tử đang được sử dụng rộng rãi thì nhu cầu tìm kiếm thông tin sản phẩm trên internet là nhu cầu không thể thiếu của người dùng. Tuy nhiên các hệ thống tìm kiếm hiện nay hầu như chỉ dừng lại với những kết quả trả về là các đường link liên quan đến từ khóa cần tìm, đôi khi còn có các thông tin không liên quan đến nội dung cần tìm, người sử dụng phải mất thêm một khoảng thời gian nữa chỉ để coi các thông tin liên quan đến sản phẩm cần tìm của mình từ các đường link tìm kiếm được ở trên. Vấn đề được đặt ra là ta phải xây dựng hệ thống như thế nào để giải quyết vấn đề trên? Để giải quyết vấn đề này, ta cần xây dựng hệ thống rút trích sao cho đáp ứng đầy đủ thông tin mà người dùng mong muốn- cụ thể ở đây là hệ thống có thể tìm được những thông tin phản hồi (feedback) của các sản phẩm và phân loại những feedback đó. 2. Hướng tiếp cận: Có 2 cách tiếp cận để tìm kiếm các feedback trên hệ thống tìm kiếm. - Tìm kiếm feedback dựa trên những trang website chỉ định trước. - Tìm kiếm feedback dựa vào máy học. 8 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Tuy nhiên cả hai phương pháp này đều có những nhược điểm riêng và tốc độ xử lý cũng cần phải được quan tâm. 3. Cơ sở lý thuyết: a. Phương pháp so sánh mẫu (template): Hầu hết các trang web hiện nay đều là những trang web được thiết kế trên các template có sẵn, đặc điểm của những trang cùng template là có cấu trúc tương tự nhau, do đó việc tiến hành rút trích dữ liệu từ những trang web trên chỉ cần so khớp với một template từ đó xác định khung trình bày chung và đi đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính trên trang mẫu. Để xác định được khung trình bày chung giữa một template và trang web cần rút trích thông thường người ta hay phân tích cấu trúc 2 trang web thành dạng cây đa phần đựa vào mã html. Hình 2.1: ví dụ về một cây đa phân 9 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Từ đó người rút trích sẽ dễ dàng xác định được nội dung của trang template nằm tại Node nào trên cây và đối chiếu sang trang cần rút trích. Phương pháp này không đòi hỏi người rút trích khả năng lập trình cao, dễ dàng tiến hành tuy nhiên cấu trúc của các trang web là luôn luôn biến đổi nên việc xác định các template mẫu phải luôn được cập nhật, đây là hạn chế lớn nhất của phương pháp này. b. Phân tích mã HTML: Dựa trên việc phân tích và xử lý trên mã html source code của một trang web, hoặc phân tích các html document ra HTML DOM Tree rồi dựa vào tree này để lấy ra các dữ liệu cần thiết. Html document là một tài liệu được định dạng theo mô hình cây dưới dạng các tag, các dữ liệu đã được định dạng sẵn theo một mô hình chung . Do đó khi phân tích cú pháp của một website cụ thể thì có thể tìm ra những quy luật bóc tách dữ kiệu từ website đó. 10 | P a g e [...]... Khuyết điểm là phương án sử dụng máy học vẫn còn quá sơ sài, kết quả thu được thấp và vẫn chưa thể ứng dụng vào việc sử dụng được 31 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học TÀI LIỆU THAM KHẢO [1] Slide Phương pháp nghiên cứu khoa học - GS-TSKH Hoàng Văn Kiếm 32 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học [2] Các thủ thuật sáng tạo cơ bản – Phan Dũng... mong muốn 20 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học - Ta để ý thấy trong mã html thì tên sản phẩm được trình bày trong tag - Do đó , chỉ cần split thông tin trong tag thì sẽ cho ta thông tin tên sản phẩm 21 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Hình 3.2: demo rút trích thông tin sản phẩm từ vatgia.com b Search... và các model sản phẩm được lấy trong cây danh mục sản phẩm trong bài toán con bên trên • Phần ứng dụng: thực thi ứng dụng của chương trình Chương trình cung cấp 2 website là mouthshut.com và vatgia.com để lấy feedback Ví dụ: Nguồn tìm kiếm: Mouthshut.com 29 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Nguồn tìm kiếm: Vatgia.com 30 | P a g e Ứng dụng phương pháp luận sáng. .. nguyên tắc sáng tạo: - Nguyên tắc sử dụng trung gian: sử dụng các cơ sở dữ liệu trung gian chứa các tên sản phẩm đã tìm được để dựa trên đó tìm kiếm và phân tích feedback - Nguyên tắc phân nhỏ: bài toán tìm kiếm feedback sẽ được phân nhỏ thành nhiều bài toán nhỏ như: rút trích dữ liệu, tìm kiếm dữ liệu, phân tích dữ liệu - Nguyên tắc sao chép: sử dụng thuật toán Kmean có sẵn để phân chia dữ liệu và gom... về mã html Phương pháp phân tích mã html khá hiệu quả, ít có nội dung thừa tuy nhiên mỗi website lại có định dạng khác nhau Việc áp dụng phương pháp này thành công trên mộtwebsite này không có nghĩa là thành công trên website 11 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học khác, phương pháp này đòi hỏi người rút trích phải có kiến thức nhất định về mã html và kỷ thuật lập trình... sử dụng rss Cấu trúc của RSS thực chất là XML document vì vậy việc rút trích dữ liệu từ các website có RSS sẽ đơn giản hơn rất nhiều so với trang web sử dụng html thông thường, bởi vì xml là một cấu trúc chặt chẽ về mặt ngữ pháp d Search Engine: 14 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Search Engine là một thư viện thông tin khổng lồ về các website, cho phép người sử dụng. . .Ứng dụng phương pháp luận sáng tạo khoa học trong tin học Hình 2.2: ví dụ về một html dom tree Khi rút trích dựa trên source code html người ta thường chú ý đến : css, tag name, attributes…cùng với sử dụng các biểu thức chính quy (Regular Expressions) từ đó người rút trích có thể xác định được vị trí nội dung cần lấy tuy nhiên cách này đòi hỏi người rút trích phải am hiểu tốt về mã html Phương pháp. .. website trong trường hợp này được xem là hiệu quả, tuy nhiên vẫn có vấn đề gặp phải đó là mức độ thông tin các 19 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học trang web cần lấy có đáp ứng được yêu cầu bài toán? Nếu lấy dữ liệu trên nhiều website thì làm sao xử lý thông tin trùng khi mỗi website có những định dạng hiển thị dữ liệu khác nhau - Để giải quyết vấn đề xử lý thông tin trùng... các liên kết đến phiên bản đầy đủ của nội dung tin đó, và các siêu -dữ- liệu (meta-data) khác Thông tin này được cung cấp dưới dạng một tập tin XML 12 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học được gọi là một RSS feed, webfeed, RSS stream, hay RSS channel Hình 2.3 : ví dụ về cấu trúc rss Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép những độc giả thường xuyên của... feedback từ những trang chỉ định trước, phương án này khá đơn giản, chủ yếu là thực hiện 24 | P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học rút trích dữ liệu trên các trang đó, các bước thực hiện khá đơn giản tuy nhiên lại không cho kết quả tổng quát do chỉ xét trên một số website nhất định d Lấy feedback từ website chỉ định trước: Phương pháp thực hiện lấy feedback từ các website . P a g e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học B. PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC I. Khái niệm Phương pháp luận sáng tạo và đổi mới. e Ứng dụng phương pháp luận sáng tạo khoa học trong tin học C. ÁP DỤNG MỘT SỐ THỦ THUẬT SÁNG TẠO CƠ BẢN VÀO ỨNG DỤNG THỰC TẾ GIẢI QUYẾT VẤN ĐỀ TRONG TIN