机器翻译与文本摘要

机器翻译

img

img

img

img

现在的机器翻译模型都是由数据驱动的。什么数据?

  • 新闻

  • 公司网页

  • 法律/专利文件,联合国documents

  • 电影/电视字幕

IBM fire a linguist, their machine translation system improves by 1%

Parallel Data

  • 我们希望使用双语的,有对应关系的数据

  • 大部分数据都是由文档级别的

如何评估翻译模型?

  • 人工评估最好,但是非常费时费力

  • 还有哪些问题需要人类评估?

  • 需要一些自动评估的手段

  • BLUE (Bilingual Evaluation Understudy), Papineni et al. (2002)

  • 计算系统生成翻译与人类参考翻译之间的n-gram overlap

  • BLEU score与人类评测的相关度非常高

  • https://www.aclweb.org/anthology/P02-1040.pdf

  • precision based metric

  • 自动评估依然是一个有价值的研究问题

precision: 在我翻译的单词当中,有哪些单词是正确的。

unigram, bigram, trigram, 4-gram precision

BLEU-4: average of the 4 kinds of grams

BLEU-3

统计学翻译模型

img

Encoder-decoder 模型

x:英文

y:中文

P(y|x) x: noisy input

img

P(y|x) = P(x, y) / P(x) = P(x|y)P(y) / P(x)

argmax_y P(y|x) = argmax_y P(x|y)P(y)

P(x|y)

P(y)

Encoder-Decoder Model

img

img

RNN(x) –> c (c能够完全包含整个句子的信息?

RNN(c) –> y (c作为输入进入每一个decoding step)

训练方式是什么?损失函数是什么?

  • cross entropy loss, 作业一中的context模型

  • SGD, Adam

GRU

https://arxiv.org/pdf/1406.1078.pdf

img

img

Attention机制

img

img

图片来自 Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/pdf/1409.0473.pdf

img

img

图片来自Luong et al., Effective Approaches to Attention-based Neural Machine Translation

https://arxiv.org/pdf/1508.04025.pdf

Google Neural Machine Translation

https://arxiv.org/pdf/1609.08144.pdf

img

img

img

Zero-shot NMT

img

img

Transformer模型

https://shimo.im/docs/gPwkqCXrkJyRW89V

这个模型非常重要

模型 x –> encoder decoder model –> \hat{y}

cross entropy loss (\hat{y}, y)

训练 P(y_i | x, y_1, …, y_{i-1}) 训练的时候,我们知道y_1 … y_{i-1}

在预测的时候,我们不知道y_1 … y_{i-1}

怎么样统一训练和测试

Model Inference

在各类文本生成任务中,其实文本的生成与训练是两种不同的情形。在训练的过程中,我们假设模型在生成下一个单词的时候知道所有之前的单词(groud truth)。然而在真正使用模型生成文本的时候,每一步生成的文本都来自于模型本身。这其中训练和预测的不同导致了模型的效果可能会很差。为了解决这一问题,人们发明了各种提升模型预测水平的方法,例如Beam Search。

Beam Search

Kyunghyun Cho Lecture Notes Page 94-96 https://arxiv.org/pdf/1511.07916.pdf

Encoder(我喜欢自然语言处理) –> c

Decoder(c) –> y_1

Decoder(c, y_1) –> y_2

Decoder(c, y_1, y_2) –> y_3

…..

EOS

argmax_y P(y|x)

greedy search

argmax y_1

Beam 横梁

————————————————

一种固定宽度的装置

————————————————

在后续的课程中我们还会介绍一些别的方法用于生成文本。

美国总统和中国主席打电话

–> K = 无穷大 |V|^seq_len

American, U.S. , United

….

decoding step: K

K x |V| –> K

K x |V| –> K

开源项目

FairSeq https://github.com/pytorch/fairseq

Tensor2Tensor https://github.com/tensorflow/tensor2tensor

Trax https://github.com/google/trax

文本摘要

文本摘要这个任务定义非常简单,给定一段长文章,我们希望生成一段比较精简的文本摘要,可以覆盖整篇文章的信息。

文本摘要按照任务的定义大致可以分为两类。

  • 抽取式:给定一个包含多个句子的长文本,选择其中的一些句子作为短文本。这本质上是个分类问题,也就是判断哪些句子需要保留,哪些句子需要丢弃。二分类任务

  • 生成式:与抽取式文本摘要不同,这里我们不仅仅是希望选出一些句子,而是希望能够总结归纳文本的信息,用自己的话复述一遍。直接上transformer模型

gold standard

评估手段: ROUGE

ROUGE评估的是系统生成文本和参考文本之间 n-gram overlap 的 recall。

Candidate Summary

the cat was found under the bed

Reference Summary

the cat was under the bed

针对这一个例子,ROUGE-1分数为1, ROUGE-2为4/5。

s: the cat was found under the bed

p: the cat was under the bed

ROUGE-L,基于 longest common subsequence的F1 score

例如上面这个案例 LCS = 6

P = 6/7

R = 6/6

F1 = 2 / (6/6 + 7/6 ) = 12/13

harmoic mean

img

img

https://arxiv.org/pdf/1908.08345.pdf

img

img

上期学员的博客

https://blog.csdn.net/Chen_Meng_/article/details/103756716

CopyNet

https://arxiv.org/pdf/1603.06393.pdf

文章目录
  1. 1. 机器翻译
  2. 2.
    1. 2.1. Encoder-Decoder Model
    2. 2.2. Attention机制
    3. 2.3.
    4. 2.4. Zero-shot NMT
    5. 2.5. Transformer模型
    6. 2.6. Model Inference
    7. 2.7. 开源项目
  3. 3. 文本摘要
|