本学习记录来自团队李晖同学,感谢她的分享。
视频介绍
视频地址 https://www.youtube.com/watch?v=06-AZXmwHjo
视频内容主要是吴恩达老师他们对于人工智能从模型->数据转变的一些研究和分享,对于相关领域的同学,都有值得借鉴的地方。
关键PPT
总结重点
现在更多的做法是以模型为中心,而不是以数据为中心。 为什么要以数据为中心?
- 如果数据质量比较好,可以在很多个模型上都表现优秀。
- 小数据情况下,提升数据质量或者增大数据数量带来的提升效果,远远大于改变模型。
- 可以固定模型,优化数据。
如何构建一个以数据为中心的体系? 作者表示他们也在探索中,但是要在整个过程中,注意数据的一致性,以及高质量。并给出了在每个阶段应该注意什么,以及什么是高质量的数据。
一些有意思的点
- 清洗脏数据与扩大一倍数据集带来的提升效果相当。
- kaggle上大部分的训练数据都在1万条以下(小数据),也符合很多小公司的实际情况。在1万条以下的数据集上,把控数据质量带来的提升效果将是明显的。
3.在大数据上,脏数据带来的影响远小于小数据集。
对于我们来说,其实也在按照这个流程走,只是不成系统。特别是在数据的一致性上,在多人标注,标注规范不清晰的时候很可能造成数据不一致。还有就是线上的反馈流程不完善,不能很好的挑选出有偏差的数据。这些都是后续需要注意的点。
想想你的文章写的特别好www.jiwenlaw.com
叼茂SEO.bfbikes.com
博主真是太厉害了!!!