2020-04-09

机器翻译与文本摘要

机器翻译

现在的机器翻译模型都是由数据驱动的。什么数据？

新闻
公司网页
法律/专利文件，联合国documents
电影/电视字幕

IBM fire a linguist, their machine translation system improves by 1%

Parallel Data

我们希望使用双语的，有对应关系的数据
大部分数据都是由文档级别的

如何评估翻译模型？

人工评估最好，但是非常费时费力
还有哪些问题需要人类评估？
需要一些自动评估的手段
BLUE (Bilingual Evaluation Understudy), Papineni et al. (2002)
计算系统生成翻译与人类参考翻译之间的n-gram overlap
BLEU score与人类评测的相关度非常高
https://www.aclweb.org/anthology/P02-1040.pdf
precision based metric
自动评估依然是一个有价值的研究问题

precision: 在我翻译的单词当中，有哪些单词是正确的。

unigram, bigram, trigram, 4-gram precision

BLEU-4: average of the 4 kinds of grams

BLEU-3

统计学翻译模型

Encoder-decoder 模型

x：英文

y：中文

P(y|x) x: noisy input

P(y|x) = P(x, y) / P(x) = P(x|y)P(y) / P(x)

argmax_y P(y|x) = argmax_y P(x|y)P(y)

P(x|y)

P(y)

Encoder-Decoder Model

RNN(x) –> c (c能够完全包含整个句子的信息?）

RNN(c) –> y (c作为输入进入每一个decoding step)

训练方式是什么？损失函数是什么？

cross entropy loss，作业一中的context模型
SGD, Adam

GRU

https://arxiv.org/pdf/1406.1078.pdf

Attention机制

图片来自 Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/pdf/1409.0473.pdf

图片来自Luong et al., Effective Approaches to Attention-based Neural Machine Translation

https://arxiv.org/pdf/1508.04025.pdf

Google Neural Machine Translation

https://arxiv.org/pdf/1609.08144.pdf

Zero-shot NMT

Transformer模型

https://shimo.im/docs/gPwkqCXrkJyRW89V

这个模型非常重要

模型 x –> encoder decoder model –> \hat{y}

cross entropy loss (\hat{y}, y)

训练 P(y_i | x, y_1, …, y_{i-1}) 训练的时候，我们知道y_1 … y_{i-1}

在预测的时候，我们不知道y_1 … y_{i-1}

怎么样统一训练和测试

Model Inference

在各类文本生成任务中，其实文本的生成与训练是两种不同的情形。在训练的过程中，我们假设模型在生成下一个单词的时候知道所有之前的单词（groud truth）。然而在真正使用模型生成文本的时候，每一步生成的文本都来自于模型本身。这其中训练和预测的不同导致了模型的效果可能会很差。为了解决这一问题，人们发明了各种提升模型预测水平的方法，例如Beam Search。

Beam Search

Kyunghyun Cho Lecture Notes Page 94-96 https://arxiv.org/pdf/1511.07916.pdf

Encoder(我喜欢自然语言处理) –> c

Decoder(c) –> y_1

Decoder(c, y_1) –> y_2

Decoder(c, y_1, y_2) –> y_3

…..

EOS

argmax_y P(y|x)

greedy search

argmax y_1

Beam 横梁

————————————————

一种固定宽度的装置

————————————————

在后续的课程中我们还会介绍一些别的方法用于生成文本。

美国总统和中国主席打电话

–> K = 无穷大 |V|^seq_len

American, U.S. , United

….

decoding step: K

K x |V| –> K

开源项目

FairSeq https://github.com/pytorch/fairseq

Tensor2Tensor https://github.com/tensorflow/tensor2tensor

Trax https://github.com/google/trax

文本摘要

文本摘要这个任务定义非常简单，给定一段长文章，我们希望生成一段比较精简的文本摘要，可以覆盖整篇文章的信息。

文本摘要按照任务的定义大致可以分为两类。

抽取式：给定一个包含多个句子的长文本，选择其中的一些句子作为短文本。这本质上是个分类问题，也就是判断哪些句子需要保留，哪些句子需要丢弃。二分类任务
生成式：与抽取式文本摘要不同，这里我们不仅仅是希望选出一些句子，而是希望能够总结归纳文本的信息，用自己的话复述一遍。直接上transformer模型

gold standard

评估手段: ROUGE

ROUGE评估的是系统生成文本和参考文本之间 n-gram overlap 的 recall。

Candidate Summary

the cat was found under the bed

Reference Summary

the cat was under the bed

针对这一个例子，ROUGE-1分数为1， ROUGE-2为4/5。

s: the cat was found under the bed

p: the cat was under the bed

ROUGE-L，基于 longest common subsequence的F1 score

例如上面这个案例 LCS = 6

P = 6/7

R = 6/6

F1 = 2 / (6/6 + 7/6 ) = 12/13

harmoic mean

https://arxiv.org/pdf/1908.08345.pdf

上期学员的博客

https://blog.csdn.net/Chen_Meng_/article/details/103756716

CopyNet

https://arxiv.org/pdf/1603.06393.pdf

本文标题:机器翻译与文本摘要

文章作者:MingmingYe

发布时间:2020-04-09, 08:37:53

最后更新:2020-06-09, 08:59:04

原始链接:http://mmyblog.cn/2020/04/09/机器翻译与文本摘要/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

↑
欣赏此文？求鼓励，求支持！