博客 介绍增量学习

介绍增量学习

   数栈君   发表于 2023-06-06 11:15  200  0

一、增量学习
1.增量学习的愿景是,在新的数据以流式到达,同时出现新的类别或者新的任务的情况下,人工智能系统能够做到增量学习,在保留旧的知识的情况,能够较好地适应新的领域,学习新的知识。

2.增量学习目前需要解决的问题:新知识时往往会遭遇“灾难性遗忘”(Catastrophic Forgetting),在学习新任务之后,模型在旧任务上性能灾难性下降。这个问题指向了神经网络模型所面临的普遍问题:稳定性-可塑性困境(stability-plasticity dilemma),其中可塑性代表调整以整合新知识的能力,稳定性则代表在调整过程中保留旧知识的能力。如何提高模型的可塑性,同时兼顾稳定性,在两者间取得平衡,是增量学习研究所面临的挑战。

二、增量学习分类
1 任务增量学习(Task Incremental Learning)
任务增量学习是指不同时刻到达的数据分属于不同的任务,同一任务的数据能够一个批次全部到达。由此导致的一个特点是,在一个任务中,我们可以获得当前任务的全量数据,从而可以遵循当前神经网络的学习范式,在独立同分布的假设下训练模型。同时,既然不同任务的输出互相独立,模型可以通过多头网络的方式实现。这也意味着,在预测阶段,我们需要根据需要指定输出头。

2 类增量学习(Class Incremental Leraning)
类增量学习是指,不同时刻到达的数据属于同一任务的不同类别,类增量学习要求模型进行单头输出,并且能够增加输出的类别。相比于任务增量学习,类别增量学习前后数据之间的互相干扰更大,难度更高。

3 域增量学习(Domain Incremental Learning)
域增量学习是指,不同时刻到达的数据属于同一任务的相同类别,但是数据分批次到达,且领域(domain)发生了变化,不同批次的数据不再符合静态同分布假设。在这个意义上,域增量学习与在线学习有相同之处,但增量学习突出强调了模型的抗遗忘能力。

三、增量学习和其他方式对比

 http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9d4bf7b72953269f564fc5febfda05b9..png

1 多任务学习
多任务学习使用共享或者部分共享的参数同时学习多个相关的任务,通过多任务联合建模,期望达到更好的泛化性能,减少过拟合。与增量学习比较,多任务学习以离线学习的方式同时完成所有任务的建模,不存在任务的分批次到达以及模型的迭代和调整。(学到k个任务的知识)

2 迁移学习
迁移学习希望通过源任务和目标任务间知识的迁移,利用在源任务上的知识,提升模型在目标任务上的性能。与增量学习不同的是,迁移学习不要求模型保留在源任务上的知识。(更好的学习DT)

3 元学习
元学习希望教会模型学习的能力,基于过去训练的经验提高模型的学习能力。给定一系列训练任务,期望模型在新任务上快速调整和学习。元学习同样不涉及保留过去任务的知识,防止遗忘。

将数据集分为D1~Dk,k份数据集,旨在学习到任务之间的共性能够识别Dt数据集的物体(一般运用于小样本学习中)

4 跨域学习
同时在两个数据集上进行训练,相当于扩展了原数据集帮助学习。(更好的学习DT)

5 在线学习
与离线学习方式相不同,在线学习在流式数据上优化模型。与增量学习不同,1.在线学习通常要求每个样本只能使用一次,且数据全都来自于同一个任务,假设流式数据在整体上具有独立同分布特性,而增量学习是多任务的,但它允许在进入下一个任务之前多次处理当前任务的数据。同时,2.在线学习不强求模型保留过去的知识,使得模型倾向于拟合当前时效的数据。和增量学习结合,3.在线增量学习时增量学习和在线学习的交叉领域,如果数据以流式方式到达,在线增量学习期望模型流式地学习新数据和新类别,并且具有抗遗忘的能力。(每次只能学习当前数据集的一部分,每个样本只能学一次,旨在越学越能更好的学习数据集D1)

6 持续学习
持续学习设置明确地专注于动态变化的环境,通常划分为需要顺序完成的一组任务。和增量学习一样,1.无法和以前的任务交互2.模型容量有限(以流的形式,每次学习一堆数据集D1~Dt,旨在还能识别前面的数据集)增量学习是只能读取前面数据集的部分信息和当前数据集。

  • 免责申明:

    本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

  • 《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu


  • 《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

  • 想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

    同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
    https://github.com/DTStack

0条评论
上一篇:数据质量(DQ)
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群