加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网 (https://www.0759zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习面临的三个重要数据挑战

发布时间:2021-11-06 04:00:23 所属栏目:大数据 来源:互联网
导读:众所周知,数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家确定适合其项目的正确存储基础架构。数据基础架构使机器学习成为可能。然而,一旦开始使用,机器学习就面临着关键的数据挑战,需要首先解决: 1.质量 2.稀疏性 3.完整性 接下来,
众所周知,数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家确定适合其项目的正确存储基础架构。数据基础架构使机器学习成为可能。然而,一旦开始使用,机器学习就面临着关键的数据挑战,需要首先解决:
 
1.质量
 
2.稀疏性
 
3.完整性
 
接下来,让我们深入研究其中的每一个,以便大家了解如何克服机器学习的这些挑战:
 
1. 质量
 
许多数据科学家希望利用外部来源的数据。然而,通常没有质量控制或保证如何捕获原始数据。
 
你相信外部数据的准确性吗?
 
这是一个很好的例子。漂浮在海洋中的浮标上的传感器收集有关海洋温度的数据。但是,当传感器无法收集温度时,它将记录为999。此外,在2000年之前,仅用两个数字记录了年份的数字。但是在2000年之后,记录的数字变为了四个。
 
因此,我们需要了解数据的质量以及如何准备数据。在这种情况下,分析浮标数据的科学家可以使用平均值、均值、最小值、最大值来可视化原始数据,捕获这些数据库错误并相应地对其进行清理。
 
2. 稀疏性
 
在这种情况下,稀疏适用于元数据。通常,元数据字段不完整,有些字段已填写,有些字段留空。如果数据是从单一来源生成的,则可能是由于人类缺乏规范或知识所致。但是,如果数据来自各种来源,而没有元数据的标准定义,则每个数据集可能具有完全不同的字段。因此,将它们组合在一起时,完成的字段可能不对应。
 
当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据?
 
如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元数据以便能够相应地调整其模型。

(编辑:PHP编程网 - 湛江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!