GithubHelp home page GithubHelp logo

yatube_parsing's Introduction

Yatube Parser

Описание

Учебный проект для практики создания асинхронных парсеров, работы во фреймворке Scrapy и с библиотекой SQLAlchemy.

Парсится тестовый сайт по адресу: http://51.250.32.185/

В проекте реализована работа двух пауков:

  • yatube - осуществляет поиск на всех страницах сайта постов, написанных в понедельник, создает базу данных sqlite и заполняет её информацией из найденных постов.
  • group - осуществляет поиск на всех страницах сайта ссылок на существующие группы, переходит на страницы групп и выводит в файл .csv информацию о группе и количество постов в ней.

Ключевые технологии и библиотеки:

Установка

  1. Склонируйте репозиторий:
git clone [email protected]:AbbadonAA/yatube_parsing.git
  1. Активируйте venv и установите зависимости:
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
  1. Проект готов к запуску.

Управление:

  • Запуск паука yatube:
scrapy crawl yatube

Будет создана база данных sqlite.db и заполнена полученными данными.


  • Запуск паука group:
scrapy crawl group -O <имя_файла>.csv

Будет создан файл <имя_файла>.csv с полученными данными.


  • Альтернативный запуск паука yatube для сбора данных обо всех постах:
  1. В файле yatube.py необходимо закомментировать строки:
    custom_settings = {
        'ITEM_PIPELINES': {
            'yatube_parsing.pipelines.MondayPipeline': 300
        }
    }
    
  2. Сохраните файл;
  3. Выполните команду:
    scrapy crawl yatube -O <имя_файла>.csv
    

Будет создан файл <имя_файла>.csv с данными из всех постов на сайте.


Лицензия

  • MIT License

Автор

Pushkarev Anton

[email protected]

yatube_parsing's People

Contributors

abbadonaa avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.