Для начала думаю, следует поделить проект на три этапа.
- Это 1. парсинг статей,
-
- выявление паттернов,
-
- и подбор подходящей модели классификации.
Конечно же, это слепые сроки, нужно еще посмотреть на сами статьи, источники и паттерны.
Но так как статьи английские, уже есть помеченный тренировочный датасет, думаю итого выйдет примерно столько же по времени.
Поэтому, готов обсудить детали и просмотреть статьи.