与任何技术领域(或任何专业学科)一样,数据分析充斥着各种术语。这使得非专业人士更难甚至害怕接触这个话题。在 5 月 17 日举行的城市数据分析活动中,我们聚集了对数据科学有深入了解的人,以及首次有兴趣将其应用于实际问题的人。为了支持更丰富的讨论并鼓励合作,我们编写了这份简短的“术语解读”,涵盖 15 个基本术语和概念。
首先,简单介绍一下该活动本身:
这是一个与数据科学家、城市首席执行官和许多在英国各地致力于开创性数据项目的地方政府创新者交流的机会。
我们与来自ASI 数据科学、行为洞察团队和 Nesta的经验丰富的专家举办了 关于行业工具、评估和信息共享的研讨会,以帮助人们从头开始设计更好的数据信息项目。
数据分析术语解读:
API:代表应用程序接口,是一种促进两个软件程序之间通信和数据访问的代码。
大数据: 据英国内阁办公室称,大数据既指“大量且高度复杂的数据”,也指“实时获取有意义的信息和见解所需的更先进的技术”。
认知计算: 指能够大规模学习(即具有 Paytm 数据 处理大量各类数据的能力)、实时学习并 与人类自然互动的系统。
数据分析:使用专门的工具和技术从原始数据中提取见解和含义。
数据分析师与数据科学家:一般来说,数据分析师将帮助您查询、汇总和处理数据,而数据科学家将应用分析工具和技术来解决特定问题。
数据湖: 一种共享数据环境,用于长期存储和管理所有类型的数据。与高度结构化的数据仓库相比,数据湖支持结构化和非结构化数据,并允许轻松访问和分析原始数据。
数据可视化:利用图像来传达数据并理解数据的 艺术。
ETL: 是指从孤立应用程序中提取、转换和加载文件到索引或数据仓库的过程。
机器学习:人工智能的一个分支,它使系统能够从经验中学习和改进,而无需明确编程。擅长根据数据输入和输出发现模式并推广到其他情况。(这是哈佛大学关于机器学习如何为地方政府服务的简短指南。)
随机森林:一种机器学习技术,用于检测大型嘈杂数据集中的异常,常用于识别信用卡欺诈案件。非常适合解决“大海捞针”之类的问题。
小数据:指小到可以在单台计算机内部使用电子表格应用程序等简单工具进行处理的数据。
空间分析:一种了解与位置相关的变量与空间模式之间关系的技术。空间分析是地理信息系统 (GIS) 的基础,例如用于汽车卫星导航或智能手机地图的系统。
结构化数据:采用传统行列表格格式的数据。
非结构化数据:指在分析之前需要清理和处理的数据,或者数据结构不是表格形式的数据。第一类数据的例子是文本,第二类数据的例子是社交网络。