Hoi, Ik heb een probleem met het gebruiken van de embeddings. Ik wee

Stephan, Ik implementeer het model op deze manier: <div class="s

Memory error. Op windows kan ik de most similar functie niet uitvoeren. about dutchembeddings HOT 4 CLOSED

Thisgio commented on August 15, 2024

Memory error. Op windows kan ik de most similar functie niet uitvoeren.

from dutchembeddings.

Comments (4)

stephantul commented on August 15, 2024

Hoi Giovanni,

kan je misschien beschrijven hoe je de modellen inlaadt (met welk pakket/code), en welk model je probeert in te laden? Als je een memory error ziet, dan betekent dat dat je niet genoeg RAM-geheugen hebt. Je kan dit eventueel verhelpen door een kleiner model te selecteren (als je nu bijv. COW-big gebruikt kan je misschien bijv. Wikipedia-160 gebruiken.)

Groet,
Stéphan

from dutchembeddings.

Thisgio commented on August 15, 2024

Stephan,

Ik implementeer het model op deze manier:

# Gensim
import gensim

model = gensim.models.KeyedVectors.load_word2vec_format("./Embeddings/160/wikipedia-160.txt", binary=False)
katvec = model['kat']
x = model.most_similar('kat')

Dit is de error bij een van een vector size van 100:

Exception has occurred: MemoryError
Unable to allocate 996. MiB for an array with shape (2610658, 100) and data type float32
File "D:\Source\Repos\DataAugmentation\Embeddings.py", line 14, in
x = model.most_similar('kat')

Bij de vector van 100 gaat die al zeuren.

Enig idee wat ik zou kunnen doen?

Groeten,

Giovanni

from dutchembeddings.

stephantul commented on August 15, 2024

Hoi,

Kan je uitleggen hoe je de vector size hebt aangepast naar 100? Dit zou normaal 160 moeten zijn.

Je systeem heeft wellicht gewoon te weinig geheugen. De wikipedia file bevat meer dan 1 miljoen woorden. Als je dat wilt, kan je een subset van die woorden inladen, dan zouden je geheugenproblemen opgelost moeten zijn. Dit zou ook niet echt een probleem moeten zijn voor de meeste toepassingen, omdat de woorden die je weglaat hoogstwaarschijnlijk laag-frequente termen zijn.

Dit kan je bij gensim met de limit parameter doen, bijv.

model = gensim.models.KeyedVectors.load_word2vec_format("./Embeddings/160/wikipedia-160.txt", binary=False, limit=1000)

from dutchembeddings.

Thisgio commented on August 15, 2024

Stephan,

Het probleem is opgelost door de limit!

Ik had even een ander model gepakt die een size had van 100. Nu gebruik ik weer de wikipedia.

Bedankt :).

Groeten,

Giovanni

from dutchembeddings.

Memory error. Op windows kan ik de most similar functie niet uitvoeren. about dutchembeddings HOT 4 CLOSED

Comments (4)

Related Issues (5)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs