The optimalnumberoftopics from machine-intelligence-laboratory

optimalnumberoftopics's Issues

The dataset was synthetic and contained only 2 topics (a notebook for data creation may be provided).
The model was trained with 20 topics.

brunet_metric

Почитал про brunet_metric
https://github.com/AdrienGuille/TOM/blob/388c71ef0da7190740f19e5e8a838df95521a06e/tom_lib/nlp/topic_model.py#L90
Я вроде понял, что там происходит. Кажется, мы можем это реализовать, если захардкодить, что iterations == 3

Rerun experiments with KnownModel.LDA ("asymmetric")

Test for scores save/load

#43 (comment)

Неплохо бы было сделать тест, когда в модель добавляются все скоры, она тренируется, сохраняется, загружается, снова тренируется, и все скоры успешно обновляются (то есть они не FrozenScore)

Add Holdout perplexity score

Some tiny piece of stuff about holdout may be found here Making-Decorrelation-and-Topic-Selection-Friends.ipynb

Num_Topics on a range of synthetic datasets with different numbers of topics

data_utils -> into the topka

https://github.com/machine-intelligence-laboratory/OptimalNumberOfTopics/blob/master/topnum/scores/dataset_utils.py

Dataset.load: only once for each dataset

загрузка датасета — в несколько раз замедляет загрузку моделей с диска (при том что от скора нам нужна только значения сейчас). Кажется, для SO это разница между "три часа" и "меньше пяти минут"

...

лучше мб какой-то глобальный флаг включить?

ещё вариант делать загрузку датасета "лениво" (т.е. просто кэшировать его по сути)
по-хорошему вообще это должен быть референс на один и тот же объект, а не куча клонов

Про один инстанс – это в точку! Чё-то этот момент пропустили при оформлении загрузки скоров (что "сколько скоров – столько раз и датасет поднимется"). В идеале должно быть так. При обучении они ведь один датасет используют

Возможно это вообще на стороне топикнета надо чинить? Как в джаве строки интернируются

Да, возможно... То есть при Dataset.load(path) можно не тупо загружать, а проверять, не загружен ли уже датасет с таким path. И если да, то возвращать его. Единственное, не совсем ясно, что делать, когда например, датасет загрузили и, скажем, словарь отфильтровали. Отдавать при Dataset.load изменённый датасет (с фильтрованным словарём), или загружать с нуля с диска?

Current workaround: https://github.com/machine-intelligence-laboratory/OptimalNumberOfTopics/blob/fix/load_models_hack/topnum/scores/base_custom_score.py#L13

Stability approach. Holdout + Restarts

TopicNet datasets not loading

It can be fixed. See issue in the TopicNet repository: machine-intelligence-laboratory/TopicNet#92.

More examples: using in code, command in bash script

Now there are examples of using the module via command line (python run_search.py ...).
Seems good to show more ways of using: Python code + bash script

About script:
https://askubuntu.com/questions/1097197/running-python-script-from-shell-script-with-newline

requirements.txt duplicates lapsolver

Refactor mean-std-computation stuff in scores

Add renormalization & entropy score in run_search

RPC

а можешь сделать RPC? это по формуле
(perplexity(t2) - perplexity(t1))/(t2-t1)
где t_i — это число тем на графике, в соседних точках

demonstrate all methods
on real data

Big data mode

remove all dataset._data from code
add tests for keep_in_memory=False
add keep_in_memory param in some dataset-related places (if needed)

with open(subsample_dataset_file_path, 'w') as f:
    writer = csv.writer(f)
    writer.writerow(dataset._data.columns)

    document_df_rows = dataset._data.iloc[current_document_indices, :]

    # TODO: check this!
    if not dataset._small_data:
        document_df_rows = document_df_row.compute().iloc[current_document_indices]

    writer.writerows([r.to_list() for _, r in document_df_rows.iterrows()])

list index out of range

Запускаю питоновский код из примера на своих данных и получаю следующую ошибку:

    194         document_words = self._get_words(document)
    195         top_words = self._get_top_words(topic, word_topic_relatednesses)
--> 196         top_words_cooccurrences = self._get_top_words_cooccurrences(top_words, document_words)
    197 
    198         return self._compute_newman_coherence(

~/Data Science/Notebooks/topnum/topnum/scores/sophisticated_toptok_coherence_score.py in _get_top_words_cooccurrences(self, top_words, document_words)
    264         self._update_cooccurrences(cooccurrences, top_words, words_num_appearances_in_window)
    265 
--> 266         last_word_in_window = start_window[0]
    267 
    268         for w in document_words[self._window:]:

IndexError: list index out of range

machine-intelligence-laboratory / optimalnumberoftopics Goto Github PK

optimalnumberoftopics's People

Contributors

Stargazers

Watchers

Forkers

optimalnumberoftopics's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs