GithubHelp home page GithubHelp logo

parse-tululu.org's Introduction

Парсер книг с сайта tululu.org

Парсер скачивает книги жанра Фантастика с сайта tululu.org

Запуск

Для запуска скрипта у вас уже должен быть установлен Python 3.

  • Скачайте код
  • Установите зависимости командой pip install -r requirements.txt

Пример сайта

Онлайн библиотека

Так будет выглядеть сайт в действии: сайт в действии

Аргументы парсера

  1. С какой страницы начать скачивание --start_page (по умолчанию указана страницы 1);
  2. Закончить скачивание на этой странице --end_page (по умолчанию указан номер последней страницы в категории);
  3. Путь к каталогу с результатами парсинга: картинкам, книгам, JSON файл --dest_folder (по умолчанию папка result );
  4. Путь к *.json файлу с результатами --json_path (по умолчанию папка result );
  5. Не скачивать картинки --skip_imgs (по умолчанию папка False );
  6. Не скачивать книги --skip_txt (по умолчанию папка False ).

Пример 1: >>> python main.py Скачает книги с 1 по 2 страницу;

Пример 2: >>> python main.py --start_page 1 --end_page 30 --dest_folder My_folder Скачает книги с 1 по 30 страницу;

Пример 3: >>> python main.py --dest_folder My_folder Скачает книги с 1 по последнюю страницу в папку My_folder;

Пример 4: >>> python main.py --json_path folder_json Скачает книги с 1 по последнюю страницу в папку result а JSON файл с результатами в папку folder_json;

Пример 5: >>> python main.py --skip_imgs Скачает книги без картинок с 1 по последнюю страницу в папку result;

Пример 6: >>> python main.py --dest_folder My_folder --skip_txt Скачает книги без .txt файлов с 1 по последнюю страницу в папку My_folder.

Просмотр сайта оффлайн

Запустите файл render_website.py.

>>> python render_website.py

В папке pages сформируются страницы сайта index1.html, index2.html, index3.html и т.д. Для просмотра сайта нужно скачать на свой компьютер папки media, static, pages, перейти в папку pages и открыть один из html файлов.

Цели проекта

Код написан в учебных целях — это урок в курсе по Python и веб-разработке на сайте Devman.

parse-tululu.org's People

Contributors

canto9112 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.