(原标题:ICML国际机器学习顶会隆重召开,格物钛登台分享AI开放数据)
第三十八届国际机器学习大会(ICML)于2021年7月18日正式召开。ICML作为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,致力于展示和发表与人工智能、统计学和数据科学等密切相关领域以及重要应用领域的研究成果,推动人工智能分支机器学习的发展。
一年一度的ICML汇聚了众多高水平的学者、工业研究人员、企业家以及工程师,共同分享科技领域的前沿资讯。格物钛作为今年ICML 2021的主办人之一,登台ICML Expo分享大会,与机器学习领域内的研究者们共同探讨开放数据的未来。
在Expo Talk上,格物钛创始人兼CEO崔运凯从当前开放数据的一些痛点角度出发,分享了格物钛对于公开数据集的思考以及解决方案。崔运凯表示:“在过去的几十年里,ImageNet、KITTI 和 MNIST 等开放数据一直是人工智能研究的核心。随着开放数据的兴起,越来越多的研究人员开始意识到数据在人工智能发展中的重要性。行业专家吴恩达和许多其他开发人员正在倡导从以模型为中心的 AI 过渡到以数据为中心的 AI 开发。”
崔运凯总结了目前使用公开的数据集存在的主要痛点,包括了查找公开的数据集有难度,不是所有的公开数据集都标注完整,部分公开数据集的标注存在错误,以及数据集本身存在偏差。不仅如此,数据的托管、宣传,社群的运营、互动也需要很多资源和精力。
基于公开数据集的重要性与行业现存的痛点,崔运凯认为,目前格物钛推出的公开数据集平台(Open Datasets)可以帮助开源数据的发布者与使用者有效的解决这些问题。对于发布者来说,他们可以在平台上实现数据托管、用户吸引以及社区互动等功能;对于使用者来说,他们可以高效搜索具有某类特征的数据集,明确详细的数据使用协议,也可以筛选以及合并多个数据集。
在未来,以数据为中心(Data Centric)的开发模式中,数据必然会扮演越来越重要的角色。随着更多更高质量数据集的开源,将为人工智能的发展带来巨大的价值。
格物钛定位为面向机器学习的数据平台,致力于为 AI 开发者打造下一代新型基础设施,从根本上改变其与非结构化数据的交互方式。通过非结构化数据管理工具TensorBay和开源数据集社区Open Datasets,帮助机器学习团队和个人降低数据获取、存储和处理成本,加速 AI 开发和产品创新,为人工智能赋能千行百业、驱动产业升级提供坚实基础。