本学习记录来自团队李晖同学,感谢她的分享。

视频介绍

视频地址 https://www.youtube.com/watch?v=06-AZXmwHjo
视频内容主要是吴恩达老师他们对于人工智能从模型->数据转变的一些研究和分享,对于相关领域的同学,都有值得借鉴的地方。

关键PPT

数据智能-1.png
数据智能-2.png
数据智能-3.png
数据智能-4.png
数据智能-5.png
数据智能-6.png

总结重点

现在更多的做法是以模型为中心,而不是以数据为中心。 为什么要以数据为中心?

  1. 如果数据质量比较好,可以在很多个模型上都表现优秀。
  2. 小数据情况下,提升数据质量或者增大数据数量带来的提升效果,远远大于改变模型。
  3. 可以固定模型,优化数据。

如何构建一个以数据为中心的体系? 作者表示他们也在探索中,但是要在整个过程中,注意数据的一致性,以及高质量。并给出了在每个阶段应该注意什么,以及什么是高质量的数据。

一些有意思的点

  1. 清洗脏数据与扩大一倍数据集带来的提升效果相当。
  2. kaggle上大部分的训练数据都在1万条以下(小数据),也符合很多小公司的实际情况。在1万条以下的数据集上,把控数据质量带来的提升效果将是明显的。
    3.在大数据上,脏数据带来的影响远小于小数据集。

对于我们来说,其实也在按照这个流程走,只是不成系统。特别是在数据的一致性上,在多人标注,标注规范不清晰的时候很可能造成数据不一致。还有就是线上的反馈流程不完善,不能很好的挑选出有偏差的数据。这些都是后续需要注意的点。

最后修改:2021 年 03 月 28 日 09 : 11 PM