近日,由人工智能研究实验室OpenAI研发的聊天机器人模型ChatGPT风靡全网。在OpenAI官网上,ChatGPT被描述为优化对话的语言模型,可以回答日常问题、进行多轮闲聊,也可以承认错误回复、挑战不正确的问题,甚至会拒绝不适当的请求。强大而惊艳的语言能力,让ChatGPT饱受关注。

据悉,ChatGPT是在一个开源数据集上进行训练的,训练参数是前代的10倍以上(前代预训练数据量达到45TB)。作为一个大型的语言模型,ChatGPT离不开万亿级别数据的投喂,依托强大的算力,其智能程度还与训练数据的质量和多样性挂钩。

(一)没有高质量的数据,就不会有可信的AI

AI的发展早已迈向技术和产业深度融合的新阶段,移动互联网的技术发展、智能手机的大规模普及和IoT物联网的兴起带来了AI模型训练迭代以及应用落地所需的海量数据。然而,单纯的数据并不能直接产生价值,AI模型需要的是经过处理、清洗、标注、管理的精准数据,只有输入准确的数据才能训练出精准的AI。

常见的数据挑战

数据虽然无法百分百解决一切问题,但在人工智能行业中存在一个简单而关键的共识:数据集质量的高低直接决定最终模型效果的好坏。即:数据对于算法模型训练非常重要,数据越丰富,代表性越强,数据质量越高,训练效果越好,算法就越稳健。在人工智能和机器学习进程中,常见的数据挑战基本是以下几类:

(1)如何查找正确数据用于建模?

(2)如何使数据可用于机器学习环境?

(3)如何确保用于建模的数据是可信的?

(4)希望减少数据准备的耗时,将更多时间用于数据科学。

(5)如何在生产环境中部署和实施机器学习模型?

(二)数据治理为人工智能奠定基础

“无治理,不分析”,数据治理的输出就是人工智能的输入,因此,数据治理多与人工智能的发展相辅相成。人工智能领域的领军人物吴恩达曾经说过:“一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作。”

AI企业如何获得干净、结构清晰的数据?软信天成认为:需要通过定义数据质量需求、定义数据质量测量指标、定义数据质量业务规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,确保数据可信任且敏感数据已脱敏,减少数据准备工作耗时,加速数据管道的实施,为深度学习等人工智能技术提供可信的数据输入。常见流程包括但不限于:

(1)数据目录和沿袭:发现正确的数据集

(2)数据导入:为机器学习环境导入正确数据

(3)数据集成:实施数据管道和大规模处理实时数据

(4)数据质量:确保可信数据可用于获取洞察

(5)数据脱敏:为机密信息脱敏

(6)数据准备:简化数据准备工具并实现数据协作