GithubHelp home page GithubHelp logo

nightinsight / video-parser Goto Github PK

View Code? Open in Web Editor NEW
1.0 1.0 0.0 77 KB

Скрипт для массовго парсинга ссылок с сайта и скачивания по ним роликов на примере сайта Витте

License: GNU General Public License v3.0

Python 100.00%
api parser python video webparser yandexdisk yandexdiskapp

video-parser's Introduction

Video-Parser

Скрипт для массового парсинга ссылок с сайта и скачивания по ним роликов на примере сайта Витте.

Video-Parser-Yadisk - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их сначала на диск компьютера, а затем на Яндекс.Диск.

Video-Parser-Offline - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их локально на диск компьютера без дальнейшей передачи на Яндекс.Диск.

Описание для Video-Parser-Yadisk: Если вы хотите использовать скрипт для загрузки всех роликов на свой Яндекс.Диск, то потребуется получить свой собственный токен доступа к Яндекс.Диску. Вот как это сделать:

  1. Зарегиструйте скрипт как свое приложения в Яндекс.OAuth:
  2. Перейдите на страницу Яндекс.OAuth по ссылке - https://oauth.yandex.ru/client/new/ ;
  3. Нажмите "Зарегистрировать новое приложение";
  4. Введите любое название приложения и выбирите "Веб-сервисы";
  5. В разделе "Яндекс.Диск REST API" напишите необходимые права доступа: "Доступ к информации о Диске", "Чтение всего Диска", "Запись на весь Диск";
  6. Завершите регистрацию приложения.

Получение Токена:

  1. После регистрации приложения вы получите ID (Client ID) и пароль (Client Secret);
  2. Следуйте инструкциям Яндекса для получения токена;
  3. Токен обычно представляет собой очень длинную строку символов.

Внесения необходимых данных для работы скрипта:

  1. Внесите свой токен в поле "token" вместо '**********';
  2. Внесите свой логин в поле "username" вместо '**********';
  3. Внесите свой пароль в поле "password" вместо '**********';
  4. Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
  5. Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests yadisk

Затем можно настроить пути сохранения для Яндекс Диска: "from_dir" - откуда качать с компьютера и "to_dir" - куда качать на Яндекс Диск. Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".

Пошаговое описание работы Video-Parser-Yadisk:

  1. Настройка доступа к Яндекс Диску: Скрипт использует токен для аутентификации и работы с Яндекс Диском;
  2. Проверка и создание папки на Яндекс Диске: Скрипт проверяет наличие целевой папки на Яндекс Диске и если папка отсутствует, он создает ее;
  3. Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
  4. Создает папку для сохранения роликов, если она не создана;
  5. Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
  6. Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
  7. Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на Яндекс Диске. Если существует, то он переходит к следующему ролику;
  8. Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
  9. Загрузка видео на Яндекс Диск: После скачивания скрипт загружает видеоролик на Яндекс Диск;
  10. Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
  11. Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.

Описание для Video-Parser-Offline: Здесь те же настройки что и для прошлого скрипта, но без настроек для Яндекс Диска.

Внесения необходимых данных для работы скрипта:

  1. Внесите свой логин в поле "username" вместо '**********';
  2. Внесите свой пароль в поле "password" вместо '**********';
  3. Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
  4. Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests

Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".

Пошаговое описание работы Video-Parser-Offline:

  1. Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
  2. Создает папку для сохранения роликов если она не создана;
  3. Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
  4. Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
  5. Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на диске компьютера. Если существует, то он переходит к следующему ролику;
  6. Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
  7. Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
  8. Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.

video-parser's People

Contributors

nightinsight avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.