GithubHelp home page GithubHelp logo

niutrans / mtbook Goto Github PK

View Code? Open in Web Editor NEW
2.7K 181.0 761.0 90.3 MB

《机器翻译:基础与模型》肖桐 朱靖波 著 - Machine Translation: Foundations and Models

Home Page: https://opensource.niutrans.com/mtbook/index.html

TeX 100.00% Shell 0.01%
machine-translation deep-learning natural-language-processing neural-machine-translation statistical-machine-translation machine-learning tex

mtbook's People

Contributors

bigheadcrz avatar iszengxin avatar mengxia-mx avatar xiaotong avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

mtbook's Issues

语料很少怎么办?

在神经机器翻译中,如果数据很少,或者甚至没有平行语句的情况,还能训练翻译模型吗

ensemle搜索策略

假如我已经训练了一堆模型,由于计算资源有限,有没有一种比较推荐的高效的搜索方法,能让我在这堆模型中找到一个比较好的ensemble组合呢?

引入文件拼写错误

mt-book-xelatex.tex 文件
line 136,139-141
include 的文件名与实际不符
tex studio 中报错,建议修改实际文件名

勘误 章节 8.2.1 p224

"这项工作也获得了自然语言处理领域顶级会议 ACL2015 的最佳论文奖"
看了下索引88的文献, 它是2005年的最佳论文奖. https://aclanthology.org/P05-1033/

另外想说下一个小细节, 参考文献, index 之类的能不能放到左侧pdf目录中

4.1章 page135

p('红 茶'='red tea')=0.8*0.8=0.64
p('红茶'='black tea')=0.6

此处文字描述有误

内存不足导致报错的问题

为什么我按照内存不足的解决方法执行了之后,还是不能够编译整个文档呢?还是会报错内存溢出

CMD端编译出错

在CMD端执行xelatex mt-book-xelatex后报错如下:
Sorry, but xelatex did not succeed.

The log file hopefully contains the information to get MiKTeX going again:

C:\Users\lenovo\AppData\Local\MiKTeX\2.9\miktex\log\xelatex.log

dvipdfmx:fatal: File ended prematurely

No output PDF file written.

之前有两处出现”! Undefined control sequence.“

请问神经机器翻译中,对于小语种的训练应该怎么做呢?

在神经机器翻译中,我已经收集到不少数据,但是出现的问题是,中文到英文准确度可以保证,当设置平行语句时总会出问题,并且在训练过程中,日语和韩语这两种语言与中文的转换并不准确,韩语与日语中有很多语法与中文语法不同,所以想请教一下大佬们,有没有好的建议,还有就是在训练中,如果一句话中加入表情,那么识别语种会有问题,并且表情符号也会被吞掉,以上这几个问题请问有没有好的解决办法呢?

捉个typo

《机器翻译》的作者们与编辑们,您们好。阅读您们的著作受益匪浅,这里捉一个小typo。
17.2.2节 “其中的部分概念在后续介绍的端到端语言翻译中也会有所涉及”。 结合下文,语言翻译 应为 语音翻译。

书中P294 疑问

屏幕截图 2021-06-16 195419

(C)应该是3阶张量,而且子张量维度应为 2x3 而不是3x2?

Transformer mask

能否用矩阵的形式详细说明几种mask:encoder input padding mask,encoder self-attention mask,
decoder input padding mask, decoder masked self-attention mask, encoder-decoder attention mask 谢谢。
例如:zh-en
zh: 我 喜欢 深度学习 。
en: I love deep learning .
token emdding dim: 256

1:encoder input embedding(token embedding+positional embedding) shape: [6,256]
2:encoder input padding mask:[[1][1][1][1][0][0]]

1*2输入encoder layer
encoder self-attention mask:
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[-inf,-inf,-inf,-inf,-inf,-inf]]

3:decoder input embedding(token embedding+positional embedding) shape: [6,256]
4:decoder input padding mask:[[1][1][1][1][1][0]]

5:Future mask: [[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][1,1,1,1,1,1]]
decoder masked self-attention mask: 4 & 5 ????????????????????? 而不是简单的5
即:[[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][0,0,0,0,0,0]]
最后decoder masked self-attention mask+(-inf):
[[0,-inf,-inf,-inf,-inf,-inf][0,0,-inf,-inf,-inf,-inf][0,0,0,-inf,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,0,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]

6: encoder decoder mask:[[1,1,1,1,0,0],[1,1,1,1,0,0],[1,1,1,1,0,0][1,1,1,1,0,0][1,1,1,1,0,0][0,0,0,0,0,0]]
然后encoder decoder mask+(-inf)=
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]

P93 实例 3.1

s = 机器 翻译 就 是 用 计算机 来 进行 翻译
t = machine translation is just translation by computer

第二个“翻译”是动词,但第二个“translation”是名词?

P106 连乘表示法

公式3.19 中的连乘表示法和后面公式解释中的连乘表示法 不一致

在xelatex下无法编译通过

Windows下,使用texlive 2020中的xelatex编译无法通过
`! Undefined control sequence.
__xeCJK_patch_microtype_get_slot:

l.4826 }

? `

能否提供一个读者交流群

你好,很感谢你们为机器翻译领域带来一本这么优秀的书籍,读下来获益良多,我也在你们的实体书出版后买了一本,不知道有没有可能建一个微信群聊,方便读者和NiuTrans以及机器翻译领域的各位大牛进行持续的技术交流呢?

年代错误

文中1.2.2 机器翻译的萌芽部分:

"早在17 世纪,如Descartes、Leibniz、Cave Beck、Athanasius Kircher 和Johann Joachim Becher 等很多学者就提出采用机器词典(电子词典)来克服语言障碍的想法[4],这种想法在当时是很超前的。随着语言学、计算机科学等学科的发展,在19 世纪30 年代使用计算模型进行自动翻译的**开始萌芽,如当时法国科学家Georges Artsrouni 就提出用机器来进行翻译的想法。只是那时依然没有合适的实现手段,所以这种想法的合理性无法被证实。"

应将“19世纪30年代”改为“20世纪30年代”。

4.2 P149

“在桌子上的”应为‘on the table’

勘误:11.14 图片与标注不符

第 11 章图 11.14 中,图示左边的绿框表示 A 作为门控参数,右边 B 表示提取的特征,输出 y 的表达式应该是 $y=\sigma(A) \otimes B$,书中为 $y=A \otimes \sigma(B)$

后文中以 $y=A \otimes \sigma(B)$ 为准描述,应该修改图示为右边的绿框连接 sigmoid 运算。

image

部分Tex文件名大小写不一致

Chapter6\Chapter6.tex
Chapter7\Chapter7.tex
ChapterAppend\ChapterAppend.tex
与mt-book-xelatex.tex中139~141行中文件名大小写不一致,此问题导致在对文件名大小写敏感的操作系统(如大多数Linux)上编译会丢失章节

另外,Chapter1、2、3中所有对Figures的引用均为小写,同样会导致找不到src目录下文件;Chapter6、7也存在少量文件名大小写不符情况

书本P347页内容勘误

image

这个图中的 x 处 不是点乘,是Hadamard product,在数学公式10.9中,一般的表示符号是空心小圆圈和带实心点的空心小圆圈。所以公式10.9和其上一段的“点乘”中文描述可能需要修改。

Page 90-91 include Pig 3.4

机器翻译---词翻译模型中的第二个问题,1. 用比较整个句子的统计概率大小解决问题,明显每个词的翻译的最大概率词构成的句子的概率值最大,2.在词翻译模型中,机器是怎么学到的statisfied 后是with 而不是statisfied to.
3. 图3.4 中,在解决了第一个问题后,用统计枚举算,共54中可能。用最大概率计算,应该不是第一条路径最佳。
4.这个图的概率值有误。

谢谢辛苦的工作。

补充smt中特征的介绍

感谢分享,能否在smt部分加一些特征的介绍。书里面的特征工程出现频次较高,但是没有特征的具体介绍。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.