博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记丨Inductive Unsupervised Domain Adaptation for Few-Shot Classification via Clustering
阅读量:4289 次
发布时间:2019-05-27

本文共 2032 字,大约阅读时间需要 6 分钟。

在这里插入图片描述


作 者:凯

单 位:燕山大学


Inductive Unsupervised Domain Adaptation for Few-Shot Classification via Clustering

Abstract

小样本学习致力于不同域之间的学习,由于域和域之间交叉的标签有限,使得传统域适应受到限制,本文提出一种DaFeC,构建表示提取器从目标域为未标注数据抽取特征,用一个cluster miner对特征进行分组。生成的伪标记数据和标记的源域数据用来更新少量分类器的参数,为了收集高质量的伪标签,我们提出了一个Clustering Promotion机制,通过Similarity Entropy Minimization和Adversarial Distribution Alignment 为目标域学习更好的特征。在FewRel2.0数据集上我们的模型胜过先前的模型。

Introduction

小样本分类旨在利用少量样本学习分类器,以识别未见过类别的示例。之前的许多工作认为没见过的类别的数据应该和训练集中的语料是相同域的,然而在现实生活中,小样本的应用在新的数据集和不同的环境中,这就意味着,这些样本来自不同的域。如果有一点域的偏差,就会导致模型性能急剧下降。

无监督的域自适应(Unsupervised domain adaptation algorithms (UDA))旨在解决从有标注域和未标注域的转移问题,在小样本领域中,支持集和查询集中的类别没有交叉,这种独特的方法使得显存的UDA方法不适用,先前的工作解决这种问题是通过少量样本微调,然而真实世界中,很难提前预测测试的类别。本文提出基于推测无监督的域自适应小样本算法,虽然我们不知道目标域的真实类别,但一些未标记的目标域数据可以属于同一类。根据集群假设,具有相同的潜在标签的未标记数据可以在表示空间中群集。挖掘这些潜在的群集结构可以提供有关目标域的辅助信息,这可能有利于提高小样本模型的适应能力。

本文贡献如下:

  1. 提出DaFeC模型,用于小样本分类问题
  2. 提出了一种Clustering Promotion Mechanism来帮助表示提取器产生群中的群集分布式特征,用于生成高置信度的标签。
  3. DaFeC是与模型无关模型,这意味着该模型可以与其他模型融合。
  4. 在FewRel2.0数据集上达到SOTA的效果,

Methodology

在这里插入图片描述

step 1:使用clustering promotion mechanism(CPM)训练representation extractor。

step 2:抽取无标签目标域特征。
step 3:使用cluster miner为未标注的目标域生成伪标签。
step 4:使用伪标签目标域数据和源域数据训练小样本分类器。

DaFeC Framework

Representation Extractor:与原型网络计算方法相同。

在这里插入图片描述
在这里插入图片描述
Cluster Miner:对查询集中的实例进行距离计算,得到最后可能的类别,并打上标签放到支持集中,共同训练模型。注意,此时的标签是伪标签,不是真实标签。

Few-shot Classifier:本文提出的模型是与模型无关的,所以可以和当前的小样本学习算法进行结合,本文结合了 Proto-CNN, Proto-BERT, BERT-PAIR。

Clustering Promotion Mechanism

为了产生具有更多区别性的特征,本文进一步将新的Clustering Promotion Mechanism(CPM)纳入训练过程中。 CPM建于三个组件:Similarity Entropy Minimization, Adversarial Distribution Alignment, and Cosine Annealing Strategy。

Similarity Entropy Minimization

在这里插入图片描述

在这里插入图片描述
r r r是温度洗漱,用来控制目标域中数据的类别,太大的 r r r会导致模型区分不开不同的类别,太小的 r r r会使得向量变成one-hot向量。
Adversarial Distribution Alignment
在这里插入图片描述
在这里插入图片描述
通过以上两式的计算过程,域鉴别器D和表示提取器E被交替地达到全局最优性,D不能区分由E.产生的源域和目标域示例的特征。representation extractor被修正以将源域的实例编码为cluster-distributed。

Cosine Annealing Strategy

在这里插入图片描述
在这里插入图片描述
λ \lambda λ L E n t r o p y L_{Entropy} LEntropy的权重参数,CPM-S促进目标域的聚类,因为代表提取器已经学习了足够的知识。

Overall Workflow

在这里插入图片描述

Experiments

在这里插入图片描述

消融实验

在这里插入图片描述

T-SNE可视化效果,节点的颜色代表类别。

在这里插入图片描述

转载地址:http://zemgi.baihongyu.com/

你可能感兴趣的文章
网络_OKHttp
查看>>
android_事件分发机制_几行代码直接通晓
查看>>
图片_OOM_OutOfMemory
查看>>
技术学习_经验分享
查看>>
android中常见的设计模式有哪些?
查看>>
ViewDragHelper_v4的滑动视图帮助类_解释和代码
查看>>
即时通讯技术- 推送技术协议方案
查看>>
vitamio简介.java
查看>>
ActiveMQ 实现负载均衡+高可用部署方案
查看>>
《搜索和推荐中的深度匹配》——2.5 延伸阅读
查看>>
解读:阿里文娱搜索算法实践与思考
查看>>
基于位置的点击模型
查看>>
链表操作算法题合集
查看>>
Crackme3 破解教程
查看>>
奖学金评比系统(数据库系统设计版)
查看>>
HTTP Live Streaming直播
查看>>
rtmp+fms rtmp 视频发布环境
查看>>
最简单的基于librtmp的示例:发布(FLV通过RTMP发布)
查看>>
Windows/Linux下引用jar包,并用javac/java编译运行
查看>>
HttpClient使用详解
查看>>