何旭铭 澎湃新闻记者 周頔 摄
近期ChatGPT等人工智能火爆出圈,人工智能需要对数据进行训练,数据质量一定程度上决定了AI水平。对于AI等新科技领域的数据使用与监管,应有怎样的考虑?
4月26日,在第四届联合国世界数据论坛期间,国际统计学会(ISI) 候任主席、密歇根大学统计系教授何旭铭接受澎湃新闻(www.thepaper.cn)记者采访时表示,像ChatGPT这样的人工智能模型需要大量的数据,通过高效的算法得出结果,实际还是非常依赖数据本身的质量以及全面性的。当前,全世界关于数据问题的讨论越来越多,大家都逐渐意识到,要得到好的结果,必须在每一个环节都要做好,而且大家联手。
“我们要知道数据是怎么来的,如果数据只是从一个地方来,不具有更多代表性,就算把这些数据全部用上,所得到的结论不一定对所有人都合适。”何旭铭表示,数据的生产最好要具有代表性,如果在并不完全有代表性的情况下,也要弄清楚数据里面对哪些人采样比较多,哪些人采样比较少,在分析阶段要把这些情况进行调整,这也涉到数据设计和分析方法的更新与发展,多方面结合才能够保证最后得到的结论更加智能,更加准确。
数据本是微观个体行为形成的,随着数据集约,价值也就显现了出来。但针对数据权利的归属,历来有不同主张的争论,一定程度上影响了数据开发利用。该如何看待数据权利的归属问题?
谈到这个问题,何旭铭表示,最好的情况是所有的数据都能够实现共享。“数据就人一样,同一个人,不同的人去看得到不同的结论是,同一个人去看的时间不同,角度也不一样,所以数据共享会让更多的人来研究数据,能去挖掘数据里面挖掘潜力和知识。”
然而,这种理想的情况并不容易实现,现实中数据共享、共治面临重重阻力。何旭铭指出,包括政府、企业在内的不同数据拥有者会有自身利益的不同考量,政府或会更加在意国家安全问题,企业的数据可能会包含隐私和商业利益。何旭铭建议,应该建立一个公共的共享信息平台,除了敏感信息,其他数据都可以进行共享,并说明所共享数据与原始数据的区别,这样能让使用者在不掌握原始数据的情况下也能对数据进行利用,从数据挖掘知识也就更加容易了。
在确保统计数据真实性方面,何旭铭建议,一方面在采集时要有一定的投资来保障准确性。另一方面在采集数据和分析数据过程中要进行相互制约的交叉验证。