APP下载

41 款实用工具 资料获取、清洗、建模、视觉化都有了_www

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息41 款实用工具 资料获取、清洗、建模、视觉化都有了_www

诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他资料获取方法可以采取自动化,而不必使用人工方法。

使用具有专用软件的物理装置(如终端、感测器和扫描器等)也可用于管理物理装置和系统之间的界面。随后,这些资料可以通过典型的程式语言(如Java、Visual Basic、C++、MatLab和Lisp)来进行部分管理。也可使用开源和专用的资料采集软件,如MIDAS(最大整合资料采集系统)。

通常,资料采集系统是作为一个专用的独立系统而开发的,这种系统被称为资料记录器。在有特殊需求的情况下,系统的工作模型已准备好,并且也已呈现给了资料科学家。这样的原型有助于使用者在系统实际构建之前测试资料获取机制。这有助于收集额外要求并测试已提出系统的可行性。

这里有发现更高层次内容的知识获取和机器学习方法(例如从资源中自动地获取资讯和知识),这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。

在其他工具中,资料清洗工具、资料管理和建模工具以及资料视觉化工具都非常重要。本文列出了不同类别中的一些主要工具。

资料清洗工具

一旦完成资料收集,便需要检查其清洁度。资料清洗通常称为资料净化,即其资料从源中删除或更正脏资料的过程。资料宣告程式的目标是识别和消除资料中的错误,为进一步分析、建模和视觉化提供一致的资料。

在资料项层级上,一些不正确的资料通过适当的验证被拒绝。在诸如档案和数据库的同构资料集合中,不一致程度和错误数量较少。在来自多个资料来源的具有异构性质的大型数据库(如资料仓库、联邦数据库系统或全球基于Web的系统)中,资料清洗变得至关重要。

(1)不同的格式

(2)冗余资料

(3)资料使用的术语和标准不同

(4)合并资料使用的方法

删除不准确的、不完整或不合理的资料会提高资料的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是资料清洗的常用机制。

除了程式语言外,常用的资料清理工具如下所列。

1. Lavastorm分析

用于分析引擎等产品。

www.lavastorm.com

2. IBM InfoSphere资讯服务器

分析、理解、清洗、监视、转换和传输资料。

http://www-03.ibm.com/software/products/en/infosphere-information-server/

3. SAS资料质量服务器

清洗资料,并在资料流管理服务器上执行作业和服务。

www.sas.com

4. Oracle的主资料管理(MDM)

是处理大量资料,并且提供诸如合并、清洗、扩充和同步企业的关键业务资料物件等服务的解决方案。

http://www.oracle.com/partners/en/most-popular-resources/059010.html

5. 益百利 QAS清洗服务

为地址验证提供CASS认证(编码精度支援系统)。

http://www.qas.co.uk/

6. NetProspex

为资料清理、追加以及正在进行的市场资料管理提供支援。在印度,它现在是邓白氏资讯服务公司的一部分,其提供资料管理转换和资料质量程式。

http://www.netprospex.com/

http://www.dnb.co.in/

7. Equifax

为数据库管理、资料整合和资料分析提供解决方案。

http://www.equifax.co.in/

8. CCR Data

清理并审计资料。该公司研发了ADAM—资料清理平台。

9. Oceanosinc公司提供的解决方案

http://www.oceanosinc.com/

10. Nneolaki

提供的工具用于资料收集、清理、附加和管理。

http://neolaki.net/

11. 资料清洗产品

为资料清洗提供方案。

http://www.datacleanser.co.uk/

资料科学实践中的其他重要活动是资料管理和资料准备,其也被称作资料整理。资料整理是将资料转换或对映为格式良好的资料流的过程,以便资料可以顺利地用于后续处理。

实际上,该过程允许通过工具便利和自动地使用资料来进行进一步的活动。排序、解析、提取、分解和恢复资料是资料管理阶段的主要活动。诸如Pearl、R、Python等程式设计工具以及来自程式语言和软件包的一些现成库可用于支援资料管理活动。

一旦资料准备好进行分析,诸如线性回归、运筹学方法以及决策支援系统等技术便通常用于资料建模。在这里,资料建模的基本目标是,为了提高商业洞察力进而确定干净且有效的资料实体之间的关系。

致力于这个阶段的资料科学家或专家被称为资料建模者。资料建模可以在概念层面、企业层面和物理层面完成。以下是支援资料建模的主要工具。

12. CA ERwin资料模拟

http://erwin.com/products/data-modeler

13. Database Workbench

为使用多个数据库进行开发提供了一个单一的开发环境。

http://www.upscene.com/database_workbench/

14. DeZign for Databases

是一个支援数据库设计和建模的工具。它还为数据库应用程序开发提供了复杂的视觉化资料建模环境。

http://www.datanamic.com/dezign/

15. Enterprise Architect

是用于资料建模和软件工程的完全整合的图形支援工具。

http://www.sparxsystems.com/products/ea/

16. ER/Studio

为资料管理专业人员提供协作机制以构建和维护企业级资料模型和元资料储存库。

http://www.embarcadero.com/products/er-studio

17. InfoSphere 资料架构师(理性资料架构师)

是一种协作式的资料设计方案。它简化了仓库设计、维度建模以及管理任务的变更。

http://www-03.ibm.com/software/products/en/ibminfodataarch/

18. ModelRight

为数据库设计人员提供了诸如数据库设计、图形支援、报告和视觉化界面等活动的支援。

http://www.modelright.com/products.asp

19. MySQL Workbench

为数据库架构师、开发人员和数据库管理员提供了统一的视觉化工具。MySQL Workbench还提供资料建模、SQL开发和综合管理。

http://www.mysql.com/products/workbench/

20. Navicat资料模拟器

http://www.navicat.com/products/navicat-data-modeler

21. Open ModelSphere

是一款独立于平台且免费的建模工具,可用作开源软件。它为资料建模和软件开发的所有阶段提供了普遍支援。

http://www.modelsphere.org/

22. Oracle SQL Developer Data Modeler

是一款用于建立、浏览和编辑资料模型的免费图形工具。它支援逻辑的、关系的、物理的、多维的以及资料型别的模型。

http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html

23. PowerDesigner

http://www.powerdesigner.de/

24. Software Ideas Modeler

通过诸如UML、业务流程模型和符号(BPMN)、系统建模语言(SysML)等的标准图以及多图表,为建模提供支援。

https://www.softwareideas.net/

25. SQLyog

是一个强大的MySQL管理者和管理工具。

https://www.webyog.com/

26. Toad Data Modeler

是一个数据库设计工具,其用于设计新的结构、实体关系图和SQL指令码生成器。

http://www.toad-data-modeler.com/

资料视觉化是指资料的图形表示。资料的视觉化使得理解资料和沟通变得更容易。

有很多可用于资料视觉化的工具,下面列出了一些常用视觉化工具:

27. Dygraphs

是一个快速且灵活的开源Java图表库,其允许使用者探索和解释密集的资料集。Dygraphs是一个高度可定制的工具。

http://dygraphs.com/

28. ZingChart

是一个Java图表库,其能为大量资料提供快速和互动式的图表。

http://www.zingchart.com/

29. InstantAtlas

以有效的视觉方式提供互动式示意图和报告软件。

http://www.instantatlas.com/

30. Timeline

http://www.simile-widgets.org/timeline/

31. Exhibit

是由麻省理工学院开发的完全开源软件,其有助于建立互动式的示意图和其他基于资料的视觉化。

http://www.simile-widgets.org/exhibit/

32. Modest Maps

对于想要使用互动式示意图的设计者和开发者来说,是一个免费的图书馆。

http://modestmaps.com/

33. Leaflet

是适用于移动友好互动式示意图的现代开源Java库。

http://leafletjs.com/

34. Visual.ly

http://create.visual.ly/

35. Visualize Free

构建互动式视觉化,用来说明简单图表不易表示的资料。

http://visualizefree.com/index.jsp

36. 多眼

IBM研发的“多眼”可以帮助使用者从资料集建立视觉化并启用资料分析。

http://www-969.ibm.com/software/analytics/manyeyes/

37. D3.js

是一个Java库,D3.js从多个资料来源使用HTML、SVG和CSS来生成图形和图表。

http://d3js.org/

38. Google Charts

提供一种机制来以多种互动式图表(如线形图、复杂的分层树形图等)的形式对资料进行视觉化。

https://developers.google.com/chart/interactive/docs/

39. Crossfilter

是一个Java库,其用于探索浏览器中的大规模多变数资料集。此外,Crossfilter还提供可协调的3D视觉化。

http://square.github.io/crossfilter/

40. Polymaps

在地图上提供了快速且多缩放的资料集演示。

http://polymaps.org/

41. Gephi

是一款适用于各种网络、复杂系统、动态和分层图形的互动式的视觉化探索平台。它支援探索性资料分析、连结分析、社交网络分析以及生物网络分析。该工具为已识别的类似资料集呈现彩色区域。

https://gephi.github.io/

除了上述工具和技术之外,资料科学领域还需要其他更多的专用新工具。由于资料科学领域是来自多个学科的技术联盟,并且具有无处不在的应用,因此资料科学在研究和开发中必须被赋予最重要的地位。此外,资料科学领域还需要档案编制、新的技术和模型。

典型的模型和技术可能不适合已获取的资料集,这些资料需要典型方法外的支援。在这里,人工智能技术可能会有很大的贡献。

作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)、普里蒂·斯里尼瓦斯·萨加(Priti Srinivas Sajja)

本书详细介绍了资料科学领域的相关智慧技术,包括资料分析、基本学习演算法、模糊逻辑、人工神经网络、基因演算法和进化计算、使用R语言进行大资料分析等。本书可以作为高等院校计算机专业本科生和研究生,以及其他专业研究生的人工智能课程的教材,也可以作为相关教师和资料分析技术人员的参考书。

作为码书商店的运营人员,诚邀你们进入我们的“CSDN码书福利群”,群里会不定时的给大家赠书书籍、优惠券等,有书籍推荐或者物流方面资讯也可群里咨询~目前群已满100人,需要加群的请扫下方二维码新增微信,拉你入群哦~对此次活动不了解的也可咨询~

2019-09-03 22:55:00

相关文章