【项目实战】德英互译NLP模型
项目报告pdflink
介绍围绕机器翻译,对NLP知识进行了总结复习和实战。首先总结了机器翻译模型的发展历史,并对相关技术进行复习。最后使用了几个前沿的预训练模型对德英数据集进行了微调,并使用不同的分词手法和评估函数进行了对比。
发展历史
RNN:加入了上一个隐藏层的输入以记忆历史数据,最先被提出用来解决时间序列模型的结构。但是过长的文本会导致梯度消失。
LSTM/GRU:解决长文本问题,可提供对更久以前的数据的记忆。
Attention机制:1. 提供弹性表达(而不是只能将文本映射为固定长度的向量) 2. 可学习全局的关系 3. 并行计算
双循环网络:初期的RNN只能单向循环,即只能看到前面的内容,看不到后面。双循环添加了从后向前的方向,使输出不仅依靠前面的文本还可知晓后面的内容。
Transformer:结合上述结构的优势,生成了强大的Transformer。在Transformer基础上还诞生了BERT等强大的模型。
使用手法主要使用基于Transformer模型T5和Transformer-align,对机器翻译任务进行迁移学习。
实验
Dataset:Multi50k
Ev ...
【项目实战】考虑内容的图片缩放
项目报告pdflink
项目描述对于图片缩放,我们希望在缩放时却不影响主体的变换。一般来说,缩放技术有基于离散和连续的两种方法,离散型通常是迭代地寻找一排(或者一列)最小能量的像素,以删除在原图片中无效的像素点;连续型则通过形变等手法改变整个图片的比例。本项目基于Seam Carving [1]和 Image Warping [2]的论文进行代码的复现和结果的比较。
背景遗传算法
进化算法的一种,优化方式属于随机优化
受生物遗传算法的启发
常用于1. 非连续,非凸,非可微,非线性等难以定义的目标函数 2. 或当搜索空间过大难以使用普通优化方式的问题
过程
随机生成一批个体(individual),这一批个体形成了一个群落(population)
每个个体其实就是一个解(solution)
每个个体具有一个适应度(fitness)的评判值,代表着它对于目标问题的分数
根据适应度的高低,高适应度的个体会相互繁衍(crossover)产生后代(下一个个体),并且会进行复制(reproduce)(在迭代中被留下);低适应度的则在下一次进化中被淘汰(discard)
在产生个体时,还会有一 ...
Queue Theory
解决问题对于某个服务大厅,已知(1)单位时间内会来的客人数(2)服务客人需要的平均时间
下一个客人什么时候来?(=t时间内来客人的概率为?)
t时间后,队伍会排多长?
流程
客人到达
排队
窗口服务
离开
初始化两个重要初始化概念:1. 客人到达时间的概率分布 2. 服务时长的概率分布这两个定下来后排队所需时间和客人离开时间就固定下来了
M/M/1:到达时间和服务时长满足泊松分布,且只有一个服务窗口
M/D/1:到达时间满足泊松分布,服务时长满足固定分布,且只有一个服务窗口
泊松分布(负指数分布)性质
无记忆性(马尔科夫模型)
泊松分布就是描述某段时间内,事件具体的发生概率。
P:概率
N: 某种函数关系,
t:时间
n:数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。
λ:表示事件的平均频率(如已知一小时内平均畜生5个婴儿则λ=5)
模拟% M/M/1 シミュレーション% イベント駆動型%シミュレーションの時間T = 100000;%客数N = 10000;% 客の構造体の定義と初期化s.arrivalTime_ = -1;s.departu ...
Collection of CGO
Collections
https://github.com/ericjang/awesome-graphics#games
https://kesen.realtimerendering.com
Image-based Editing and Reconstruction
Image stitch / photomontage
http://grail.cs.washington.edu/projects/photomontage/ Interactive Digital Photomontage
http://cs.brown.edu/courses/cs129/results/proj2/taox/ Gradient Domain Fusion Using Poisson Blending
CourseNot only the slides of courses but also lots of useful learning materials.
http://graphics.cs.cmu.edu/courses/15-463/2012_fall/463.html ...
Linear models for classification
1. Intro
goal: The goal in classification is to take an input vector x and to assign it to one of $K$ discrete classes $C_k$ where k = 1, . . . , K
Regression : take continuous values
NOTErepresentation
Two class: target variable $t \in \{0, 1\}$ such that t = 1 represents class C1 and t = 0 represents class C2
Multi class: t is a vector like (1,0,0,0,0,0…) when its class is C0
For linear regression, we only need $y=w^Tx+w_0$to obtain a real number;
For classification problem, we wish to p ...
SIFT
SIFT究竟在做什么?WHATSIFT属于传统特征提取方式,与通过深度学习的反复学习提取出的特征值不同,传统特征提取方式需要通过人工计算和模拟实验找到所需要的特征点。一个好的特征量应该具有尺度不变的性质,本文就是在解释通过怎样的计算步骤能找到这样的特征量。
WHY特征量往往被用在物体识别,并且应该是分辨度高的,以区分于杂乱的背景和庞大的数据库。
HOW我们主要使用四个步骤:1.尺度空间的极值检测,2.关键点的定位,3. 方向分配 4. 关键点描述,来提取我们所需要的特征量。
目的这篇文章帮助我们从图片中提取出图像特征,能满足即使当这个图片中某一事物或场景发生了失真,视角偏移,噪点增添或是光线改变时,也能将图片间的相关点进行对应。而且他它们是易于区分的特征,即使是从庞大的特征库中也能利用它们找到对应的真正的物体或场景。
步骤分为以下三步
尺度空间的极值提取
关键点定位
方向分配
关键点描述
这一系列的方法称作为SIFT,即尺度不变的特征转换。
1. 尺度空间的极值提取生成高斯图像、尺度空间极值提取的计算式,将使用DoG进行计算。首先我们已经知道唯一可行的尺度空间核就是高斯核,因此我们 ...
Edge Detection
1 Feature detection
Containing vast information
SO it’s important to determine
WHERE
concentrate on a part and ignore others
e.g. Object recognition: Ignore background
WHAT
Feature can be located
edge
feature points
2 Edge detection2.1 Feature
Brightness (value) changes rapidly
Differentiation (近傍ピクセルとの微分処理 )
Important feature for object recognition
Weak to noise(Because it is differentiation)
2.2 Kinds
2.3 Differentiation
Grandient
\nabla I=(\frac{\partial I}{\partial x}, \frac ...
Colorization using Optimization
论文概述 [1]
在本文中,我们提出了一种简单的着色方法:基于一个简单前提:时空中具有相似强度(intensity:Y)的相邻像素应该具有相似的颜色。 我们使用次成本函数形式化这个前提,并获得一个可以使用标准技术有效解决的优化问题。
[1]Levin, Anat, Dani Lischinski, and Yair Weiss. “Colorization using optimization.” ACM SIGGRAPH 2004 Papers. 2004. 689-694.
目标函数Y可以通过gray图像作为已知信息,因此我们需要通过临近像素的推测U和VMINIMIZE
J(U) = \sum_r \left( U(r) - \sum_{s \in N(r)} w_{rs} U(s) \right)^2J(V) = \sum_r \left( V(r) - \sum_{s \in N(r)} w_{rs} V(s) \right)^2
r: 目标像素 N(r):临近像素
$w_{rs}$的条件
两像素间Y越相似,w越大;两像素间Y差值越大,w越小
和为1
约束条件相邻像素 ...
凸优化问题
\text{minimize }f_0(x)\text{subject to } f_i(x)\le 0, i=1...mh(x)=0, i=1...p
目标函数(objective f)必须为凸(convex)
不等式(inequality constraint f)约束函数必须为凸
等式约束函数必须为仿射(affine)
定义域是m个凸的下水平集($f_i(x)$)和p个超平面($h(x)$)的交集
我们其实是在一个凸集上极小化一个凸的目标函数
局部最优解自动成为全局最优解
最优值与最优解 optimal value and optimal point最优值为最优解对应的y值
最优值定义为
p^*=inf\{f_0(x)|满足约束条件\}
当没有可行点(没有点满足约束条件)时,p为不可行(infeasible)且等于$\infty$
如果$p^*=-\infty$,则称这个问题无下界(unbounded below)
当$x^{*}$可行并且$f_0(x^*)=p^{*}$时称之为最优解
凸集合与凸函数
1. convex sets1.1 Line segmentation 直线分割y=\theta x_1+(1-\theta)x_2y=x_2+\theta(x_1-x_2)
$\theta$=1时$y=x_1$,=0时反之,所以称为直线分割
根据式2也可以看做是以x_2为基准。向x_1-x_2延伸的一条线
1.2 affine sets仿射集C上的任意两点连成的直线属于C即
{\theta x_{1}+(1-\theta) x_{2} \in C, \quad \forall x_{1}, x_{2} \in C, \text { and } \theta \in \mathbb{R}}扩展到多点上为
x_1, x_2 ... x_k \in C\bf{AND} {\theta}_1+{\theta}_2+...+{\theta}_k=1\bf{THEN} \theta x_{1}+...+\theta_k x_{k} \in C其中,对于属于C的子空间是$V=C-x_0=\{x-x_0|x\in C\}$
意味着标量乘积之和是闭合的
子空间维数=仿射集维数
1.3 affi ...