GithubHelp home page GithubHelp logo

artnet82 / ai-filter Goto Github PK

View Code? Open in Web Editor NEW
0.0 1.0 0.0 32 KB

Инструментарий для проверки модели ИИ + фильтра

License: GNU General Public License v3.0

Python 100.00%

ai-filter's Introduction

AI-FILTER

Инструментарий для проверки модели ИИ + фильтра

TF-IDF (Term Frequency-Inverse Document Frequency) - это метод векторизации текстовых данных, который позволяет представить тексты в виде числовых векторов, учитывая важность каждого термина (слова) внутри текста и внутри всей коллекции текстов.

В процессе TF-IDF векторизации текста выполняются два основных шага:

  1. Term Frequency (Частота термина): TF измеряет, насколько часто термин (слово) появляется внутри текста. Проще говоря, это отношение количества раз, когда термин появляется в тексте, к общему числу слов в тексте. Более высокое значение TF указывает на большую важность термина внутри текста.

  2. Inverse Document Frequency (Обратная частота документа): IDF измеряет, насколько уникален или информативен термин внутри коллекции текстов. Он вычисляется как логарифм отношения общего числа текстов в коллекции к числу текстов, в которых термин появляется. Более высокое значение IDF указывает на большую важность термина внутри коллекции текстов.

TF-IDF векторизация комбинирует эти два значения, умножая TF на IDF. Результатом является числовой вектор, где каждый элемент соответствует термину, а значение элемента отражает важность этого термина внутри текста и коллекции.

В задаче обнаружения запрещенных слов TF-IDF векторизация может быть использована для обучения классификатора на текстах с известными метками (например, тексты с запрещенными словами и без них). Классификатор может выявить закономерности и паттерны, связанные с наличием запрещенных слов в тексте.

При проверке сгенерированного текста на наличие запрещенных слов, TF-IDF векторизация позволяет представить сгенерированный текст в виде числового вектора. Затем этот вектор подается на вход обученному классификатору, который предсказывает метку (например, наличие или отсутствие запрещенных слов). Если классификатор предсказывает положительную метку (наличие запрещенных слов), мы можем просмотреть сгенерированный текст и определить, какие конкретные запрещенные слова были обнаружены.

Таким образом, TF-IDF векторизация позволяет учесть важность каждого термина внутри текста и коллекции и использовать эту информацию для обнаружения запрещенных слов в сгенерированном тексте.

ai-filter's People

Contributors

artnet82 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.