1、详细的网络结构为:
(1)将Bert输出的CLS位置向量与最后一层所有向量的平均池化向量相结合(Concat),作为最终模型输出向量
(2)将模型最终向量进行 softmax 计算概率
(3)将计算后的概率和真实标签计算交叉熵损失
2、合理性
在NLP文本分类场景,主流方案依然是 BERT 网络。基于BERT网络优化出各种变种,如Nezha,Roberta ,ERNIE 等等,本赛题对比之后,采用了效果最好的Nezha 模型。
3、落地
经过前面提到的模型蒸馏以及伪标签,可以将多折的大模型,输出为单个推理模型,且模型大小不超过2G。由于比赛性质,采用了伪标签方案,实际工业落地,可以使用模型蒸馏方案效果会更好。
创建时间:
2022-10-09 11:04:41
发布者类型:
企业
发布者:
山东数据交易有限公司
点击星星进行评分