atnlp / torchtext-summary Goto Github PK

View Code? Open in Web Editor NEW

170.0 5.0 42.0 38 KB

torchtext使用总结，从零开始逐步实现了torchtext文本预处理过程，包括截断补长，词表构建，使用预训练词向量，构建可用于PyTorch的可迭代数据等步骤。并结合Pytorch实现LSTM.

Jupyter Notebook 91.81% Python 8.19%

pytorch torchtext python nlp

torchtext-summary's People

Contributors

Stargazers

Watchers

torchtext-summary's Issues

关于预训练词向量加载报错

在language model中，看到要加载word2vec.6B.100d这个预训练模型，我使用的是glove.6B.50d，但是会报错。求解

Traceback (most recent call last):
File "D:/DesktopBackup/right/MLHomework/AllenNLP/[NLP]Pytorch17_torchTextDemo.py", line 75, in
wvmodel = gensim.models.KeyedVectors.load_word2vec_format(r'D:\DesktopBackup\right\MLHomework\AllenNLP\data\glove.6B.50d.txt', binary=False, encoding='utf-8')
File "C:\ProgramData\Anaconda3\lib\site-packages\gensim\models\keyedvectors.py", line 1476, in load_word2vec_format
limit=limit, datatype=datatype)
File "C:\ProgramData\Anaconda3\lib\site-packages\gensim\models\utils_any2vec.py", line 344, in _load_word2vec_format
vocab_size, vector_size = (int(x) for x in header.split()) # throws for invalid file format
File "C:\ProgramData\Anaconda3\lib\site-packages\gensim\models\utils_any2vec.py", line 344, in
vocab_size, vector_size = (int(x) for x in header.split()) # throws for invalid file format
ValueError: invalid literal for int() with base 10: 'the'

TypeError: expected np.ndarray (got numpy.ndarray)

weight[index, :] = torch.from_numpy(wvmodel.get_vector(idx_to_word[word_to_idx[wvmodel.index2word[i]]]))
高版本会报错（如101版）
TypeError: expected np.ndarray (got numpy.ndarray)
将torch.from_numpy()改为torch.Tensor()即可
建议注明

关于build_vocab报错的问题

您好，请问我构造了连个数据集
examples = []
fields = [('id', ID_FIELD), ('content', TEXT_FIELD)]
for que_id, content in question.content.items():
example_list = [que_id, content]
example = torchtext.data.Example.fromlist(example_list, fields)
examples.append(example)
question_dataset = torchtext.data.Dataset(examples, fields)
examples = []
fields = [('id', ID_FIELD), ('content', TEXT_FIELD)]
for ans_id, content in answer.content.items():
example_list = [ans_id, content]
example = torchtext.data.Example.fromlist(example_list, fields)
examples.append(example)
answer_dataset = torchtext.data.Dataset(examples, fields)
当我TEXT_FIELD.build_vocab时
#TEXT_FIELD.build_vocab(question_dataset, vectors=pre_vectors)（通过了）
TEXT_FIELD.build_vocab(answer_dataset, vectors=pre_vectors)报错
TypeError Traceback (most recent call last)
in ()
1 #TEXT_FIELD.build_vocab(question_dataset, vectors=pre_vectors)
----> 2 TEXT_FIELD.build_vocab(answer_dataset, vectors=pre_vectors)
3 vocab = TEXT_FIELD.vocab # 词表
4 vectors = TEXT_FIELD.vocab.vectors # 预训练的词向量

C:\ProgramData\Anaconda3\lib\site-packages\torchtext\data\field.py in build_vocab(self, *args, **kwargs)
302 counter.update(x)
303 except TypeError:
--> 304 counter.update(chain.from_iterable(x))
305 specials = list(OrderedDict.fromkeys(
306 tok for tok in [self.unk_token, self.pad_token, self.init_token,

TypeError: 'float' object is not iterable
请问这是什么原因，question和answer的example_list 格式都是一样的，万分感谢

关于不同field的词向量共享问题

请问torchText中不同field的词向量是共享的吗？似乎要分别build_vocab才行，但是为什么不设置成共享的词向量呢

atnlp / torchtext-summary Goto Github PK

torchtext-summary's People

Contributors

Stargazers

Watchers

Forkers

torchtext-summary's Issues

关于预训练词向量加载报错

TypeError: expected np.ndarray (got numpy.ndarray)

关于build_vocab报错的问题

关于不同field的词向量共享问题

这个包好用吗

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs