在词袋模型中,由于并不考虑词序,会导致 “我爱你” 和 “你爱我” 这两个文本的向量表示相同。比如: 根据语料构...
高斯分布(Gaussian distribution),也叫正态分布,是数据分析和统计学中最常见的一种概率分布。它得名于德国数学家卡尔·高斯,因其呈现一个对称的...
KL 散度是一种衡量两个概率分布之间差异的度量。它描述了一个概率分布相对于另一个概率分布的 信息损失。在信息论中,KL散度也被称为相对熵。 假设:、 为随机变量...
梯度裁剪是一种有效的防止梯度爆炸的技术,特别是在训练深度神经网络和循环神经网络时。它通过限制梯度的大小,使训练过程更加稳定。虽然有时可能会影响收敛速度,但它对于...
Docker 是一个开源的应用容器引擎,使用 Docker 可以将我们的应用程序和其依赖环境打包到一起进行移植、发布,我们就不需要在一台新的机器上为应用程序去安...
当对 Docker 容器执行 stop 时,我们在容器内所做的一些更改就会丢失。我们可以使用以下几种来保存对容器的一些更改: 使用 docker cp 命令,该...
1. 配置环境 首先从链接 https://nodejs.org/zh-cn/download 下载 node.js 22.14.0(LTS),安装之后进行如下...
1. 安装 docker https://docs.docker.com/engine/install/ubuntu/#install-using-the-re...
谷歌团队在 2017年6月提出了 Transformer 架构,目标是翻译任务。接着又出现了一些有影响力的模型: 2018 年 6 月:GPT 模型,第一个预训...
Docker 是一个开源的应用容器引擎,使用 Docker 可以将我们的应用程序和其依赖环境打包到一起进行移植、发布,我们就不需要在一台新的机器上为应用程序去安...
Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。例如:我们现在有 ubuntu 18.04 这个基础的 doc...

终身学习者 | 知识桥接者
我是一名 80 后,写过多年代码,讲过很多年课,积累了丰富经验。如今,想把这些经验整理,通过我的博客分享给大家。
冀公网安备13050302001966号