Парсер книг с сайта tululu.org

Парсер скачивает книги жанра Фантастика с сайта tululu.org

Запуск

Для запуска скрипта у вас уже должен быть установлен Python 3.

Скачайте код
Установите зависимости командой pip install -r requirements.txt

Пример сайта

Онлайн библиотека

Так будет выглядеть сайт в действии:

Аргументы парсера

С какой страницы начать скачивание --start_page (по умолчанию указана страницы 1);
Закончить скачивание на этой странице --end_page (по умолчанию указан номер последней страницы в категории);
Путь к каталогу с результатами парсинга: картинкам, книгам, JSON файл --dest_folder (по умолчанию папка result );
Путь к *.json файлу с результатами --json_path (по умолчанию папка result );
Не скачивать картинки --skip_imgs (по умолчанию папка False );
Не скачивать книги --skip_txt (по умолчанию папка False ).

Пример 1: >>> python main.py Скачает книги с 1 по 2 страницу;

Пример 2: >>> python main.py --start_page 1 --end_page 30 --dest_folder My_folder Скачает книги с 1 по 30 страницу;

Пример 3: >>> python main.py --dest_folder My_folder Скачает книги с 1 по последнюю страницу в папку My_folder;

Пример 4: >>> python main.py --json_path folder_json Скачает книги с 1 по последнюю страницу в папку result а JSON файл с результатами в папку folder_json;

Пример 5: >>> python main.py --skip_imgs Скачает книги без картинок с 1 по последнюю страницу в папку result;

Пример 6: >>> python main.py --dest_folder My_folder --skip_txt Скачает книги без .txt файлов с 1 по последнюю страницу в папку My_folder.

Просмотр сайта оффлайн

Запустите файл render_website.py.

>>> python render_website.py

В папке pages сформируются страницы сайта index1.html, index2.html, index3.html и т.д. Для просмотра сайта нужно скачать на свой компьютер папки media, static, pages, перейти в папку pages и открыть один из html файлов.

Цели проекта

Код написан в учебных целях — это урок в курсе по Python и веб-разработке на сайте Devman.

canto9112 / parse-tululu.org Goto Github PK

parse-tululu.org's Introduction

Парсер книг с сайта tululu.org

Запуск

Пример сайта

Аргументы парсера

Просмотр сайта оффлайн

Цели проекта

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs