想象一下,一个只推荐男性的招聘工具,或者一个吐出种族主义推文的聊天机器人。或者是一个估算房地产价格的在线工具,它的错误导致房地产市场损失超过3亿美元。
这些只是现实世界中的一些例子,说明为人工智能系统输入低质量的数据会产生灾难性的后果。糟糕的数据不仅会产生糟糕的结果,还会在人工智能中引起幻觉。
像这样的错误很少,但表明需要确保输入人工智能模型的数据具有尽可能高的质量,从而使其能够在许多方面继续为社会做出积极贡献。但是怎么做?
提高数据质量的一种方法是通过数据质量管理体系。通过提供持续改进数据质量的指南和流程,它有助于确保所使用的数据是适当的。它还概述了衡量质量以及实现审计和管理的方法。
许多组织已经制定了保证数据质量的流程,但人工智能中的机器学习模型有特定的要求。因此,IEC和ISO人工智能联合委员会SC 42最近制定了一系列国际标准,从各个角度解决数据质量问题。它为提高分析和机器学习(ML)的质量数据提供了要求和指南,以及如何不断改进它。
ISO/IEC 5259系列提供了一个数据质量模型、测量数据质量的方法、数据质量的定义以及示例和用例。这包括数据质量特征、可能存在问题的方面以及生命周期特定的数据质量管理等要素。
它还包括数据质量的治理,以帮助组织拥有适当的控制,以跟踪数据的来源和使用,并解决有关责任和透明度的问题。这将有助于建立对人工智能系统的信任,并进一步减少错误。
该系列的一些部分刚刚出版,其他部分可能会在未来几个月内效仿。