niutrans / mtbook Goto Github PK

《机器翻译：基础与模型》肖桐朱靖波著 - Machine Translation: Foundations and Models

Home Page: https://opensource.niutrans.com/mtbook/index.html

TeX 100.00% Shell 0.01%

machine-translation deep-learning natural-language-processing neural-machine-translation statistical-machine-translation machine-learning tex

mtbook's People

Contributors

Stargazers

Watchers

Forkers

xiaotong bigheadcrz duquanneu tianfn devilso stephanie7464 jyhjzx 390031335 asise player-eric wing9421 liyandan yorick76ee piggyjam land-app delaiahz 520jefferson yibit rodin2333 jianghongping edwardljh yeyeyeid zfang2019 macroice anyingbinglong jiezhanggt pemywei holm-xie yangmurun snookerchen1 baobaotql cyjack ai-rocket-camp annezhangxinxin wanghuizhen mashangming 521lbx looperwang yangjiaojiao121 ad19931120 jiazuzhao-art eleven-jia johncruyff14 lhxjkcode shiyi-nihao sherlockhu20 1248046948 lcyby fhihghg albertaki phoenix-zmh wuxsyhc jenny337 meixuecute yangyue2512 lkd-ustl mashiyu5 495089677 zhanjr liser-nlp warxzy ericeryang jeannie-k sanbaoo askhz gaolingshi ggbond-plus yangyangya beanhero xdc0209 suntianpei torres986 liangyishuai wenlong92 xiaobai987 studentofzhang 1172765138 fenfenluozaifenseli fanfanfan1993 sunzhf harry0037 romatic666 jiameng0 dluoichengsi gaoyanlin zd06040224 liuhaolong1207 chenxiaolinzi nopeyou jixiangniao11 wangmingda tanya-l-star zxqfighting zhanghexiedaren qubeijun gaozixiang c305333655 alex-atlantis l534891619 mingo-chen

mtbook's Issues

! TeX capacity exceeded, sorry [main memory size=3000000]

I use the solution that you have given，but the result has no change

ensemle搜索策略

假如我已经训练了一堆模型，由于计算资源有限，有没有一种比较推荐的高效的搜索方法，能让我在这堆模型中找到一个比较好的ensemble组合呢？

引入文件拼写错误

mt-book-xelatex.tex 文件
line 136，139-141
include 的文件名与实际不符
tex studio 中报错，建议修改实际文件名

勘误章节 8.2.1 p224

"这项工作也获得了自然语言处理领域顶级会议 ACL2015 的最佳论文奖"
看了下索引88的文献, 它是2005年的最佳论文奖. https://aclanthology.org/P05-1033/

另外想说下一个小细节, 参考文献, index 之类的能不能放到左侧pdf目录中

4.1章 page135

p('红茶'='red tea')=0.8*0.8=0.64
p('红茶'='black tea')=0.6

此处文字描述有误

内存不足导致报错的问题

为什么我按照内存不足的解决方法执行了之后，还是不能够编译整个文档呢？还是会报错内存溢出

CMD端编译出错

在CMD端执行xelatex mt-book-xelatex后报错如下：
Sorry, but xelatex did not succeed.

The log file hopefully contains the information to get MiKTeX going again:

C:\Users\lenovo\AppData\Local\MiKTeX\2.9\miktex\log\xelatex.log

dvipdfmx:fatal: File ended prematurely

No output PDF file written.

之前有两处出现”! Undefined control sequence.“

请问神经机器翻译中，对于小语种的训练应该怎么做呢？

在神经机器翻译中，我已经收集到不少数据，但是出现的问题是，中文到英文准确度可以保证，当设置平行语句时总会出问题，并且在训练过程中，日语和韩语这两种语言与中文的转换并不准确，韩语与日语中有很多语法与中文语法不同，所以想请教一下大佬们，有没有好的建议，还有就是在训练中，如果一句话中加入表情，那么识别语种会有问题，并且表情符号也会被吞掉，以上这几个问题请问有没有好的解决办法呢？

捉个typo

《机器翻译》的作者们与编辑们，您们好。阅读您们的著作受益匪浅，这里捉一个小typo。
17.2.2节 “其中的部分概念在后续介绍的端到端语言翻译中也会有所涉及”。结合下文，语言翻译应为语音翻译。

”277页 3.神经元的输入...” 部分似乎有一点小错误

于是你改变了三个输入的形式：
x1：10/距离（km） x2：150/票价（元）
x3：女朋友是否喜欢
在新修改的模型中，x0 和 x1 变成了连续变量，x2 仍然是离散变量，如图9.7所
示。

下标不一致

P90页条件随机场公式(3.8)是不是打错了？

式（3.8） P(A|A) + P(A|B) = 1 是否应该是 P(A|A) + P(B|A) = 1

如果是的话，下面一段中 P(A|B) 也有相同的问题

能否用矩阵的形式详细说明几种mask：encoder input padding mask，encoder self-attention mask，
decoder input padding mask， decoder masked self-attention mask， encoder-decoder attention mask 谢谢。
例如：zh-en
zh: 我喜欢深度学习。
en: I love deep learning .
token emdding dim: 256

1:encoder input embedding(token embedding+positional embedding) shape: [6,256]
2:encoder input padding mask:[[1][1][1][1][0][0]]

1*2输入encoder layer
encoder self-attention mask：
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[-inf,-inf,-inf,-inf,-inf,-inf]]

3:decoder input embedding(token embedding+positional embedding) shape: [6,256]
4:decoder input padding mask:[[1][1][1][1][1][0]]

5:Future mask: [[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][1,1,1,1,1,1]]
decoder masked self-attention mask: 4 & 5 ????????????????????? 而不是简单的5
即：[[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][0,0,0,0,0,0]]
最后decoder masked self-attention mask+（-inf）:
[[0,-inf,-inf,-inf,-inf,-inf][0,0,-inf,-inf,-inf,-inf][0,0,0,-inf,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,0,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]

6: encoder decoder mask:[[1,1,1,1,0,0],[1,1,1,1,0,0],[1,1,1,1,0,0][1,1,1,1,0,0][1,1,1,1,0,0][0,0,0,0,0,0]]
然后encoder decoder mask+（-inf）=
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]

P93 实例 3.1

s = 机器翻译就是用计算机来进行翻译
t = machine translation is just translation by computer

第二个“翻译”是动词，但第二个“translation”是名词？

关于统计机器翻译中的词法句法信息

词法、句法等信息已经在统计机器翻译中得到了很好的使用，那么这些信息能不能应用于神经机器翻译呢？又是怎么应用的？

P106 连乘表示法

公式3.19 中的连乘表示法和后面公式解释中的连乘表示法不一致

NMT inference阶段怎样用greedy search取得beam search的效果？

一般来说greedy search的翻译效果明显不如beam search，但后者实际运行的效率远低于前者，有没有工作探索过如何缩小两者在效果上的差距？如果可以做到这一点，那么inference的效率会提高不少。

初次使用miktex，在编译时遇到Undefined control sequence.问题

!Undefined control sequence.
__xeCJK_patch_microtype_get_slot:

l.4826 }
请教一下这样的问题该如何处理？

本书网页版的15章的公式图表引用丢失

https://opensource.niutrans.com/mtbook/section15-1.html 公式或图表的引用都是问号

2.4章 75页错别字

"比如仅在前一个词时 San时"　-> "比如仅在前一个词是 San时"

在xelatex下无法编译通过

Windows下，使用texlive 2020中的xelatex编译无法通过
`! Undefined control sequence.
__xeCJK_patch_microtype_get_slot:

l.4826 }

? `

能否提供一个读者交流群

你好，很感谢你们为机器翻译领域带来一本这么优秀的书籍，读下来获益良多，我也在你们的实体书出版后买了一本，不知道有没有可能建一个微信群聊，方便读者和NiuTrans以及机器翻译领域的各位大牛进行持续的技术交流呢？

年代错误

文中1.2.2 机器翻译的萌芽部分：

"早在17 世纪，如Descartes、Leibniz、Cave Beck、Athanasius Kircher 和Johann Joachim Becher 等很多学者就提出采用机器词典（电子词典）来克服语言障碍的想法[4]，这种想法在当时是很超前的。随着语言学、计算机科学等学科的发展，在19 世纪30 年代使用计算模型进行自动翻译的**开始萌芽，如当时法国科学家Georges Artsrouni 就提出用机器来进行翻译的想法。只是那时依然没有合适的实现手段，所以这种想法的合理性无法被证实。"

应将“19世纪30年代”改为“20世纪30年代”。

niutrans / mtbook Goto Github PK

mtbook's People

Contributors

Stargazers

Watchers

Forkers

mtbook's Issues

1*2输入encoder layer encoder self-attention mask： [[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[-inf,-inf,-inf,-inf,-inf,-inf]]

Recommend Projects

Recommend Topics

Recommend Org

Jobs

1*2输入encoder layer
encoder self-attention mask：
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[-inf,-inf,-inf,-inf,-inf,-inf]]