在分类问题中,会碰到样本类别不均衡的情况。此时,模型为了能够降低损失,会去尽量学习多数样本,导致对少数类别样本的学习减弱。 举个不太恰当的例子,我们有数学和语文两个科目,其中数学的学习资料特别多,而语文的学习资料特别少。...
协同过滤推荐(Collaborative Filtering Recommendation):该算法的核心是分析用户的兴趣和行为,利用共同行为习惯的群体有相似喜好的原则,推荐用户感兴趣的信息。 基于用户的协同过滤:找到和...
Unigram 算法通常用于 SentencePiece,这是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的分词算法。 它从一个较大的词汇表开始,然后逐步删除其中的 token,直到达到...
SentenceTransformers is a Python framework for state-of-the-art sentence, text and image embeddings. You...
对模型进行剪枝,使得模型参数稀疏化可以降低模型的复杂度,也能够一定程度上加快模型的计算速度。我们知道决策树通过剪枝能够起到正则化,防止过拟合。在深度学习模型中,裁剪也能够起到相应的作用。 模型的裁剪本质上是将部分的模型参...
我们使用的是 TNEWS 数据集,该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。数据量:训练集(53,360),验证集(10,000),测试集(10,000),例子: {R...
情感分析本质是一个文本分类任务。PaddleNLP 内置了 ERNIE、BERT、RoBERTa、Electra 等丰富的预训练模型,并且内置了各种预训练模型对于不同下游任务的Fine-tune网络。用户可以使用 Pad...
我们使用的算法模型中大都是批量学习(Batch Learning)模式,即:假设在训练之前所有训练样本一次都可以得到,学习这些样本之后,学习过程就终止了,不再学习新的知识。 在有些场景下,训练样本通常不可能一次全部得到,...
线性回归在建模的时候,只考虑到了单个特征的影响。但是有些场景下,添加组合特征(交叉特征)会给模型带来非常好的效果。 POLY2 算法(二阶多项式)在线性回归基础上添加组合特征 ,并为每个组合特征配备了一个学习参数 ,如下...
如何将一个句子、段落、或者文档用一个向量表示?词袋模型,该模型将每个文档转换为固定长度的整数向量。例如,给定以下句子: 模型输出向量: 每个向量有 10 个元素,其中每个元素计算特定单词在文档中出现的次数。元素的顺序是任...