GithubHelp home page GithubHelp logo

Comments (4)

stephantul avatar stephantul commented on August 15, 2024

Hoi Giovanni,

kan je misschien beschrijven hoe je de modellen inlaadt (met welk pakket/code), en welk model je probeert in te laden? Als je een memory error ziet, dan betekent dat dat je niet genoeg RAM-geheugen hebt. Je kan dit eventueel verhelpen door een kleiner model te selecteren (als je nu bijv. COW-big gebruikt kan je misschien bijv. Wikipedia-160 gebruiken.)

Groet,
Stéphan

from dutchembeddings.

Thisgio avatar Thisgio commented on August 15, 2024

Stephan,

Ik implementeer het model op deze manier:

# Gensim
import gensim

model = gensim.models.KeyedVectors.load_word2vec_format("./Embeddings/160/wikipedia-160.txt", binary=False)
katvec = model['kat']
x = model.most_similar('kat')


Dit is de error bij een van een vector size van 100:

Exception has occurred: MemoryError
Unable to allocate 996. MiB for an array with shape (2610658, 100) and data type float32
File "D:\Source\Repos\DataAugmentation\Embeddings.py", line 14, in
x = model.most_similar('kat')

Bij de vector van 100 gaat die al zeuren.

Enig idee wat ik zou kunnen doen?

Groeten,

Giovanni

from dutchembeddings.

stephantul avatar stephantul commented on August 15, 2024

Hoi,

Kan je uitleggen hoe je de vector size hebt aangepast naar 100? Dit zou normaal 160 moeten zijn.

Je systeem heeft wellicht gewoon te weinig geheugen. De wikipedia file bevat meer dan 1 miljoen woorden. Als je dat wilt, kan je een subset van die woorden inladen, dan zouden je geheugenproblemen opgelost moeten zijn. Dit zou ook niet echt een probleem moeten zijn voor de meeste toepassingen, omdat de woorden die je weglaat hoogstwaarschijnlijk laag-frequente termen zijn.

Dit kan je bij gensim met de limit parameter doen, bijv.

model = gensim.models.KeyedVectors.load_word2vec_format("./Embeddings/160/wikipedia-160.txt", binary=False, limit=1000)

from dutchembeddings.

Thisgio avatar Thisgio commented on August 15, 2024

Stephan,

Het probleem is opgelost door de limit!

Ik had even een ander model gepakt die een size had van 100. Nu gebruik ik weer de wikipedia.

Bedankt :).

Groeten,

Giovanni

from dutchembeddings.

Related Issues (5)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.