niutrans / mtbook Goto Github PK
View Code? Open in Web Editor NEW《机器翻译:基础与模型》肖桐 朱靖波 著 - Machine Translation: Foundations and Models
Home Page: https://opensource.niutrans.com/mtbook/index.html
《机器翻译:基础与模型》肖桐 朱靖波 著 - Machine Translation: Foundations and Models
Home Page: https://opensource.niutrans.com/mtbook/index.html
如果增加一些source code demo就太好了
I use the solution that you have given,but the result has no change
在神经机器翻译中,如果数据很少,或者甚至没有平行语句的情况,还能训练翻译模型吗
Test
假如我已经训练了一堆模型,由于计算资源有限,有没有一种比较推荐的高效的搜索方法,能让我在这堆模型中找到一个比较好的ensemble组合呢?
mt-book-xelatex.tex 文件
line 136,139-141
include 的文件名与实际不符
tex studio 中报错,建议修改实际文件名
"这项工作也获得了自然语言处理领域顶级会议 ACL2015 的最佳论文奖"
看了下索引88的文献, 它是2005年的最佳论文奖. https://aclanthology.org/P05-1033/
另外想说下一个小细节, 参考文献, index 之类的能不能放到左侧pdf目录中
网速奇慢,有没有其他下载方式。谢谢!
p('红 茶'='red tea')=0.8*0.8=0.64
p('红茶'='black tea')=0.6
此处文字描述有误
58页公式(2.12)左端应为P(B|A)
为什么我按照内存不足的解决方法执行了之后,还是不能够编译整个文档呢?还是会报错内存溢出
在CMD端执行xelatex mt-book-xelatex后报错如下:
Sorry, but xelatex did not succeed.
The log file hopefully contains the information to get MiKTeX going again:
C:\Users\lenovo\AppData\Local\MiKTeX\2.9\miktex\log\xelatex.log
dvipdfmx:fatal: File ended prematurely
No output PDF file written.
之前有两处出现”! Undefined control sequence.“
在神经机器翻译中,我已经收集到不少数据,但是出现的问题是,中文到英文准确度可以保证,当设置平行语句时总会出问题,并且在训练过程中,日语和韩语这两种语言与中文的转换并不准确,韩语与日语中有很多语法与中文语法不同,所以想请教一下大佬们,有没有好的建议,还有就是在训练中,如果一句话中加入表情,那么识别语种会有问题,并且表情符号也会被吞掉,以上这几个问题请问有没有好的解决办法呢?
《机器翻译》的作者们与编辑们,您们好。阅读您们的著作受益匪浅,这里捉一个小typo。
17.2.2节 “其中的部分概念在后续介绍的端到端语言翻译中也会有所涉及”。 结合下文,语言翻译 应为 语音翻译。
于是你改变了三个输入的形式:
x1:10/距离(km) x2:150/票价(元)
x3:女朋友是否喜欢
在新修改的模型中,x0 和 x1 变成了连续变量,x2 仍然是离散变量,如图9.7所
示。
下标不一致
know 拼写错误
式(3.8) P(A|A) + P(A|B) = 1 是否应该是 P(A|A) + P(B|A) = 1
如果是的话,下面一段中 P(A|B) 也有相同的问题
左侧应为P(B|A)吧
第三章这两个例子一直交替使用,统一用一个是不是好一点?
能否用矩阵的形式详细说明几种mask:encoder input padding mask,encoder self-attention mask,
decoder input padding mask, decoder masked self-attention mask, encoder-decoder attention mask 谢谢。
例如:zh-en
zh: 我 喜欢 深度学习 。
en: I love deep learning .
token emdding dim: 256
1:encoder input embedding(token embedding+positional embedding) shape: [6,256]
2:encoder input padding mask:[[1][1][1][1][0][0]]
3:decoder input embedding(token embedding+positional embedding) shape: [6,256]
4:decoder input padding mask:[[1][1][1][1][1][0]]
5:Future mask: [[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][1,1,1,1,1,1]]
decoder masked self-attention mask: 4 & 5 ????????????????????? 而不是简单的5
即:[[1,0,0,0,0,0][1,1,0,0,0,0][1,1,1,0,0,0][1,1,1,1,0,0][1,1,1,1,1,0][0,0,0,0,0,0]]
最后decoder masked self-attention mask+(-inf):
[[0,-inf,-inf,-inf,-inf,-inf][0,0,-inf,-inf,-inf,-inf][0,0,0,-inf,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,0,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]
6: encoder decoder mask:[[1,1,1,1,0,0],[1,1,1,1,0,0],[1,1,1,1,0,0][1,1,1,1,0,0][1,1,1,1,0,0][0,0,0,0,0,0]]
然后encoder decoder mask+(-inf)=
[[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf],[0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][0,0,0,0,-inf,-inf][-inf,-inf,-inf,-inf,-inf,-inf]]
s = 机器 翻译 就 是 用 计算机 来 进行 翻译
t = machine translation is just translation by computer
第二个“翻译”是动词,但第二个“translation”是名词?
词法、句法等信息已经在统计机器翻译中得到了很好的使用,那么这些信息能不能应用于神经机器翻译呢? 又是怎么应用的?
公式3.19 中的连乘表示法和后面公式解释中的连乘表示法 不一致
一般来说greedy search的翻译效果明显不如beam search,但后者实际运行的效率远低于前者,有没有工作探索过如何缩小两者在效果上的差距?如果可以做到这一点,那么inference的效率会提高不少。
!Undefined control sequence.
__xeCJK_patch_microtype_get_slot:
l.4826 }
请教一下这样的问题该如何处理?
"比如仅在前一个词时 San时" -> "比如仅在前一个词是 San时"
Windows下,使用texlive 2020中的xelatex编译无法通过
`! Undefined control sequence.
__xeCJK_patch_microtype_get_slot:
l.4826 }
? `
你好,很感谢你们为机器翻译领域带来一本这么优秀的书籍,读下来获益良多,我也在你们的实体书出版后买了一本,不知道有没有可能建一个微信群聊,方便读者和NiuTrans以及机器翻译领域的各位大牛进行持续的技术交流呢?
文中1.2.2 机器翻译的萌芽部分:
"早在17 世纪,如Descartes、Leibniz、Cave Beck、Athanasius Kircher 和Johann Joachim Becher 等很多学者就提出采用机器词典(电子词典)来克服语言障碍的想法[4],这种想法在当时是很超前的。随着语言学、计算机科学等学科的发展,在19 世纪30 年代使用计算模型进行自动翻译的**开始萌芽,如当时法国科学家Georges Artsrouni 就提出用机器来进行翻译的想法。只是那时依然没有合适的实现手段,所以这种想法的合理性无法被证实。"
应将“19世纪30年代”改为“20世纪30年代”。
“在桌子上的”应为‘on the table’
可否更新下PDF,并新增mobi、epub格式?
我尝试编译,但失败了
Chapter6\Chapter6.tex
Chapter7\Chapter7.tex
ChapterAppend\ChapterAppend.tex
与mt-book-xelatex.tex中139~141行中文件名大小写不一致,此问题导致在对文件名大小写敏感的操作系统(如大多数Linux)上编译会丢失章节
另外,Chapter1、2、3中所有对Figures的引用均为小写,同样会导致找不到src目录下文件;Chapter6、7也存在少量文件名大小写不符情况
两个箭头应该是同一个方向吧
机器翻译---词翻译模型中的第二个问题,1. 用比较整个句子的统计概率大小解决问题,明显每个词的翻译的最大概率词构成的句子的概率值最大,2.在词翻译模型中,机器是怎么学到的statisfied 后是with 而不是statisfied to.
3. 图3.4 中,在解决了第一个问题后,用统计枚举算,共54中可能。用最大概率计算,应该不是第一条路径最佳。
4.这个图的概率值有误。
谢谢辛苦的工作。
请问一下,这个教程的网页 https://opensource.niutrans.com/mtbook/homepage.html 文件是怎么生成的呢?谢谢!
感谢分享,能否在smt部分加一些特征的介绍。书里面的特征工程出现频次较高,但是没有特征的具体介绍。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.