GithubHelp home page GithubHelp logo

leshchenko1979 / fast_bitrix24 Goto Github PK

View Code? Open in Web Editor NEW
131.0 8.0 29.0 838 KB

Высокопроизводительный API wrapper для Питона для быстрого массового обмена данными с Битрикс24 через REST API

License: MIT License

Python 99.87% Batchfile 0.01% Jupyter Notebook 0.13%
asyncio bitrix24 python bitrix rest-api

fast_bitrix24's Introduction

fast_bitrix24

API wrapper для Питона для быстрого получения данных от Битрикс24 через REST API.

Статистика загрузок Статистика тестов codecov Sourcery CodeFactor

Основная функциональность

Высокая скорость обмена данными

Тест скорости

  • На больших списках скорость обмена данными с сервером достигает тысяч элементов в секунду.
  • Автоматическая упаковка запросов в батчи сокращает количество требуемых запросов к серверу и ускоряет обмен данными.
  • Батчи отправляются на сервер не последовательно, а параллельно.
  • Продвинутые стратегии работы с постраничным доступом ускоряют выгрузку на порядки (см. результаты тестов).

Избежание отказов сервера

  • Соблюдаются все политики Битрикса по ограничению скорости запросов
  • Автоматический autothrottling - если сервер возвращает ошибки, скорость автоматически понижается.
  • Если сервер для сложных запросов начинает возвращать ошибки, можно в одну строку понизить скорость запроосов.

Удобство кода

  • Высокоуровневые списочные методы для сокращения количества необходимого кода. Большинство операций занимают только одну строку кода. Обработка параллельных запросов, упаковка запросов в батчи и многое другое убрано "под капот".
  • Позволяет задавать параметры запроса именно в таком виде, как они приведены в документации к Bitrix24 REST API. Параметры проверяются на корректность для облегчения отладки.
  • Выполнение запросов автоматически сопровождается прогресс-баром из пакета tqdm, иллюстрирующим не только количество обработанных элементов, но и прошедшее и оставшееся время выполнения запроса.

Синхронный и асинхронный клиенты

  • Наличие асинхронного клиента позволяет использовать библиотеку для написания веб-приложений (например, телеграм-ботов).

Нас используют

Начало работы

Установите модуль через pip:

pip install fast-bitrix24

Далее в python:

from fast_bitrix24 import Bitrix

# замените на ваш вебхук для доступа к Bitrix24
webhook = "https://your_domain.bitrix24.ru/rest/1/your_code/"
bx = Bitrix(webhook)

Методы полученного объекта bx в дальнейшем используются для взаимодействия с сервером Битрикс24.

Примеры использования

get_all()

Чтобы получить полностью список сущностей, используйте метод get_all():

# список лидов
leads = bx.get_all('crm.lead.list')

Метод get_all() возвращает список, где каждый элемент списка является словарем, описывающим одну сущность из запрошенного списка.

Вы также можете использовать параметр params, чтобы кастомизировать запрос:

# список сделок в работе, включая пользовательские поля
deals = bx.get_all(
    'crm.deal.list',
    params={
        'select': ['*', 'UF_*'],
        'filter': {'CLOSED': 'N'}
})

get_by_ID()

Если у вас есть список ID сущностей, то вы можете получить их свойства при помощи метода get_by_ID() и использовании методов вида *.get:

'''
получим список всех контактов, привязанных к сделкам, в виде
{
    ID_сделки_1: [контакт_1, контакт_2, ...],
    ID_сделки_2: [контакт_1, контакт_2, ...],
    ...
}
'''

contacts = bx.get_by_ID(
    'crm.deal.contact.items.get',
    [d['ID'] for d in deals])

Метод get_by_ID() возвращает словарь с элементами вида ID: result, где result - ответ сервера относительно этого ID.

call()

Чтобы создавать, изменять или удалять список сущностей, используйте метод call():

# вставим в начало названия всех сделок их ID
tasks = [
    {
        'ID': d['ID'],
        'fields': {
            'TITLE': f'{d["ID"]} - {d["TITLE"]}'
        }
    }
    for d in deals
]

bx.call('crm.deal.update', tasks)

Метод call() возвращает список ответов сервера по каждому элементу переданного списка.

call(raw=True)

Вызов call с парамтером raw=True отправляет на сервер переданные ему параметры в оригинальном, необработанном виде (пропуская упаковку в батчи), и возвращает ответ сервера без какой-либо обработки.

Подобный вызов можно использовать в отладочных целях, но кроме того, придется его использовать для отправки запросов, которые:

  • в параметрах имеют None (None применяется для стирания значения полей, а упаковка в батчи мешает передавать None),
  • используют устревшие методы Битрикс24, которые принимают на вход список (см. #157).
# стереть DESCRIPTION в лиде 123
params = {"ID": 123, "fields": {"DESCRIPTION": None}}
bx.call('crm.lead.update', params, raw=True)

# добавить комментарий к задаче
bx.call(
    'task.commentitem.add',
    [123, {"POST_MESSAGE": "Комментарий к задаче"}],
    raw=True
)

call_batch()

Если вы хотите вызвать пакетный метод, используйте call_batch():

results = bx.call_batch ({
    'halt': 0,
    'cmd': {
        'deals': 'crm.deal.list', # берем список сделок
        # и берем список дел по первой из них
        'activities': 'crm.activity.list?filter[ENTITY_TYPE]=3&filter[ENTITY_ID]=$result[deals][0][ID]'
    }
})

Асинхронные вызовы

Если требуется использование бибилиотеки в асинхронном коде, то вместо клиента Bitrix() создавайте клиент класса BitrixAsync():

from fast_bitrix24 import BitrixAsync
bx = BitrixAsync(webhook)

Все методы у него - синхронные аналоги методов из Bitrix(), описанных выше:

leads = await bx.get_all('crm.lead.list')

Как это работает

  1. Перед обращением к серверу во всех методах класса Bitrix происходит проверка корректности самых популярных параметров, передаваемых к серверу, и поднимаются исключения TypeError и ValueError при наличии ошибок.
  2. Cоздаются запросы на получение всех элементов из запрошенного списка.
  3. Созданные запросы упаковываются в батчи по 50 запросов в каждом.
  4. Полученные батчи параллельно отправляются на сервер с регулировкой скорости запросов (см. ниже "Как fast_bitrix24 регулирует скорость запросов").
  5. Ответы (содержимое поля result) собираются в единый плоский список и возвращаются пользователю.
    • Поднимаются исключения класса aiohttp.ClientError, если сервер Битрикс вернул HTTP-ошибку, и RuntimeError, если код ответа был 200, но ошибка сдержалась в теле ответа сервера.
    • Происходит сортировка ответов (кроме метода get_all()) - порядок элементов в списке результатов совпадает с порядком соответствующих запросов в списке запросов.

В случае с методом get_all() пункт 2 выше выглядит немного сложнее:

  • get_all() делает первый запрос к серверу Битрикс24 с указанным методом и параметрами.
  • Сервер возвращает первую страницу (50 элементов) и параметр total - общее количество элементов, найденных по запросу.
  • Исходя из полученного общего количества элементов, создаются запросы на каждую из страниц (всего total // 50 - 1 запросов), необходимых для получения всех запрошенных элементов.

В связи с тем, что выполнение get_all() по длинным спискам может занимать долгое время, в течение которого пользователи могут добавлять новые элементы в список, может возникнуть ситуация, когда общее полученное количество элементов может не соответствовать изначальному значению total. В таких случаях будет выдано стандартное питоновское предупреждение (warning).

Как fast_bitrix24 регулирует скорость запросов

Библиотека соблюдает официальные ограничения Битрикс24 по скорости запросов (см. ниже "Официальная политика Битрикс24 по скорости запросов"). Одновременно, она начинает снижать скорость запросов, если сервер начинает возвращать ошибки (autothrottling). Подобный подход позволяет на порядки увеличить скорость получения данных (см. тесты скорости).

Официальная политика Битрикс24 по скорости запросов

Одновременно работает два ограничения:

  1. Ограничение по методу Leaky Bucket: https://dev.1c-bitrix.ru/learning/course/index.php?COURSE_ID=93&LESSON_ID=7885
  2. Ограничение по методу Sliding Window в разрезе каждого метода: https://helpdesk.bitrix24.ru/open/15959788

Оба эти ограничения соблюдаются библиотекой.

Советы и подсказки

А умеет ли ваша библиотека ...?

Посмотрите в справочник по API. Если не нашли ответа, свяжитесь с автором.

А как мне сформировать запрос к Битриксу, чтобы ...?

  1. Поищите в официальной документации по REST API.
  2. Если на ваш вопрос там нет ответа - попробуйте задать его в группе "Партнерский REST API" в Сообществе разработчиков Битрикс24.
  3. Спросите в Телеграме в группе разработчиков Битрикс24.
  4. Спросите в Телеграме в группе пользователей fast_bitrix24.
  5. Спросите на русском StackOverflow.

А как понять, что отправляется на сервер и что он возвращает?

Включите логирование запросов и ответов сервера.

import logging

logging.getLogger('fast_bitrix24').addHandler(logging.StreamHandler())

Я хочу добавить несколько лидов списком, но получаю ошибку сервера.

Оберните вызов call() в slow:

with bx.slow():
    results = bx.call('crm.lead.add', tasks)

См. подробнее о slow.

Я хочу вызвать call() только один раз, а не по списку.

Передавайте параметры запроса методу call(), он может делать как запросы по списку, так и единичный запрос:

method = 'crm.lead.add'
params = {'fields': {'TITLE': 'Чпок'}}
bx.call(method, params)

Результатом будет ответ сервера по этому одному элементу.

Однако, если такие вызовы делаются несколько раз, то более эффективно формировать из них список и вызывать call() единожды по всему списку.

Как сортируются результаты при вызове get_all()?

Пока что никак.

Все обращения к серверу происходят асинхронно и список результатов отсортирован в том порядке, в котором сервер возвращал ответы. Если вам требуется сортировка, то вам нужно делать ее самостоятельно, например:

deals = bx.get_all('crm.deal.list')
deals.sort(key = lambda d: int(d['ID']))

Я использую get_all() для получения всех полей всех элементов списка, но это происходит слишком долго. Как ускорить этот процесс?

Сейчас, кода Битрикс ограничивает скорость запросов к серверу, ключевым методом ускорения остается сокращение количества информации, которую вы загружаете с сервера, и сохранение скорости скачивания в пределах, установленных Битриксом. Это может быть достигнуто за счет кэширования и сокращения количества скачиваемых полей.

Нарушение политики Битриска по скорости запросов влечет за собой штрафы, поэтому мы рекомендуем соблюдать её (параметр respect_velocity_policy=True).

Я получаю ошибку сертификата SSL. Что делать?

Если вы получаете SSLCertVerificationError / CERTIFICATE_VERIFY_FAILED, попробуйте отключить верификацию сертификата SSL:

bx = BitrixAsync(webhook, ssl=False)

Я использую вашу библиотеку из ноутбуков или из Spyder и получаю ошибки. Что делать?

Ваша cреда выполнения самостоятельно управляет примитивами asyncio (см. больше).

Используйте асинхронный клиент. То есть, вместо кода:

from fast_bitrix24 import Bitrix
bx = Bitrix(webhook)
leads = bx.get_all('crm.lead.list')

используйте код:

from fast_bitrix24 import BitrixAsync
bx = BitrixAsync(webhook)
leads = await bx.get_all('crm.lead.list')

У меня Энтерпрайз. Как мне настроить более высокую скорость запросов?

В конструкторе указывайте параметры request_pool_size=250 и requests_per_second=5:

from fast_bitrix24 import Bitrix
bx = Bitrix(webhook, request_pool_size=250, requests_per_second=5)

Как связаться с автором

fast_bitrix24's People

Contributors

leshchenko1979 avatar miron95 avatar whiteapfel avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

fast_bitrix24's Issues

Рефакторинг slow()

slow перенести в класс Bitrix / ServerResponseHandler - это даст возможность запускать одновременно несколько экземпляров класса Bitrix, решить проблему несовместимости с асинхронными вызовами и правильно наладит инкапсуляцию.

Ожидаем, что сервер Битрикса будет возвращать dict после выполнения батча, а он возвращает list

Что вызывает исключения в текущем коде.

В частности, list возвращается вместо dict при попытке вызвать crm.deal.get со списком ID.

  • Построить больше тестов, проверяющих формат возвращаемых сервером данных в results
  • Соответствующим образом адаптировать _request_list

Может, сделать один мегаметод для регулировки pool_size, requests_per_second и cautious_mode?

Потому что если ты подаешь список, который сильно нагружает сервер, то уменьшение скорости запросов не сильно спасет - тебе надо бы еще и забыть о пуле запросов.

  • Что если сделать context wrapper Bitrix.slow(), внутри которого можно задать свой pool_size и requests_per_second?
  • Убрать кастомные параметры из __init__?
  • Убрать настройку autobatch и везде соответственно подчистить код, убрав if self._autobatch:

ServerRequestHandler.run()

Метод берет на вход корутину, которую оборачивает в код, который оборачивает вызов этой корутины в:

  • asyncio.run()
  • async with self:

Будет вызываться из реаизацийUserRequestAbsract.run().

get_all() не работает с параметром limit()

Выдаёт больше лимита, что вполне объяснимо, так как алгоритм get_all() не анализирует наличие лимита в params, а только ориентируется на total в ответах сервера.

  • Можно сделать параметр отдельный параметр limit, который можно будет вызывать как при обращении к get_all(), так и в 'params'.
  • Метод должен конструировать запросы к серверу таким образом, чтобы вовремя остановиться.
  • Опасность представляет возможный возврат дублей сервером при отсутствии сортировки. в параметрах запроса

Стратегия выборки в get_all()

Текущая стратегия выборки в get_all() с использованием параметра start, хотя и позволяет использовать параллелизм, но замедляет работу сервера. Ее применение может быть неоптимальным при условиях:

  1. требуется сложная фильтрация с выгрузкой небольшого количества записей
  2. полный список сущностей (без фильтров) содержит большое количество записей

Для таких случаев более оптимальной может быть стратегия, описанная тут:
https://dev.1c-bitrix.ru/rest_help/rest_sum/start.php

Можно дать пользователю в get_all() параметр strategy, который он будет использовать, чтобы выбрать стратегию. Либо можно после первого вызова в зависимости от размера параметра filter в params и от total, возвращаемого в первом ответе, выбирать стратегию автоматически. Алгоритм выбора стратегии можно подобрать опытным путем.

details -> params

В доке Битрикса используется термин "параметры".

Что, если в call() был передан batch, и запустился autobatch?

  • Очевидно, что в таких случаях нужно отключать автобатчевание. Также, если было передано несколько батчей списком, нужно отключать упаковку в батчи, но список выполнять параллельно.
  • Описать в доке, что при подаче списка батчей порядок выполнения не гарантирован

Задержка между батчами - "горшочек, не вари"

Попытка создать более 2500 лидов за один вызов call() вызывает 500 Internal server error. Задержка в 5 сек. между такими вызовами позволяет обходить эту проблему.

  • Сделать в Bitrix.__init__ параметр requests_per_second, который будет оверрайдить умолчание в 2 сек. и будет публичным (то есть, пользователь сможет его менять между вызовами, если ему предстоят тяжелые вызовы на создание объектов).

Сортировка результатов

Сейчас сложно писать куски кода, где предполагается определенный порядок элементов в возвращаемом списке.

Например, по get_all() предполагается, что элементы отсортированы по ID, а по get_by_ID и call, что порядок элементов в результатах вызова такой же, как и во входных массивах.

Однако есть развилки:

get_all()

  • А мы уверены, что в каждом списке будет ID? Или, более общо, элемент, по которому будет сортировка? Как нам понять, есть он или нет?

Решение:

- [ ] Если есть ID, то сортировать по нему. Если его нет, то не сортировать. - решил, что в этом нет потребности. Сортировка потребует конверсии ID в int, а это может быть неожиданным для пользователя.

get_by_ID()

  • Что возвращать?
    • dict вида ID: results?
      • сломается имеющийся код
      • но поиск в результатах вызова будет очень прост
    • tuple вида (ID, results), где tuple отсортирован по ID?
      • код не сломается
    • просто список списков результатов, отсортированный также, как и входящий список
      • код сломается
      • поиск в результатах вызова также будет прост
      • кажется, что список списков - это менее понятно, чем dict
      • будет хорошая аналогия со структурой результатов, возвращаемых методом call()

Решение:

  • Пока что сортировать текущий list of tuples
    • Оказалось, что в этом нет смысла, пока в _get_by_ID на входе происходит дедупликация списка ID через преобразование его в set.
      • [х] Нужно выбрать один из вариантов:
        • при получении дублей на вход поднимать исключение,
        • не обращать внимание на дубли и делать запросы столько раз, сколько запросил пользователь - отличная идея для начала, так как она убирает неожиданное для пользователя поведение
          • Убрать дедупликацию ID_list на входе
          • Сортировать результаты согласно порядок элементов в ID_list
        • отказаться от идеи сортировки списка результатов
          • в том числе, путем #45

call()

  • Если сортировать результаты так же, как и запросы, то как это сделать через код?

  • Надо сделать preserve_IDs, на место IDs подавать номер элемента item_list. Потом по этому номеру делать сопоставление результатов в выходном массиве.

  • Поправить всю доку касательно сортировки

Перейти на dict в результатах get_by_ID()

Сейчас get_by_ID возвращает list of tuples вида

[
    (ID_1, result_1),
    (ID_2, result_2),
    (ID_3, result_3),
    ...
]

Кажется, было бы гораздо проще, если бы он возвращал dict вида

{
    ID_1: result_1,
    ID_2: result_2,
    ID_3: result_3,
    ...
}

Это бы упростило некоторые операции с результатами вызова этого метода:

  1. Когда нужно отбросить айдишники и оставить только массив результатов:
  • сейчас:
[single_result for ID, single_result in get_by_ID_results]
  • после перехода на dict:
get_by_ID_results.values()
  1. Когда в результатах нужно найти конкретный ID:
  • сейчас:
[single_result for ID, single_result in get_by_ID_results 
 if ID == ID_to_look_for][0]
  • после перехода на dict:
get_by_ID_results[ID_to_look_for]

в get_by_ID() добавить параметр "ID_field_name"

Тогда внутри метода при формировании запросов будет использоваться не метка "ID", а метка ID_field_name.

Пример - когда нужно выгрузить дела по сделке (метод crm.activity.get), то отборочным признаком является не ID, а OWNER_ID.

Ошибка в примерах

В примере https://github.com/leshchenko1979/fast_bitrix24#%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5
deals = b.get_all('crm.deal.get', params={
'select': ['', 'UF_'],
'filter': {'CLOSED': 'N'}
})
Выдает ошибку, т.к. метод crm.deal.get ожидает id в параметрах.
Если заменить метод crm.deal.get на crm.deal.list, то пример отрабатывает, как и ожидается.

Рефакторинг

https://app.genmymodel.com/api/repository/leshchenko/fast-bitrix24

  • UserRequest и производные
  • SingleServerRequest
  • MultipleServerRequest и проивзодные
  • Весь метод _request_list перенести в абстрактный класс, который будет содержать шаблонный метод, который будет обращаться к методам, переопределяемым в конкретных классах

slow() не работает

Текущий алгоритм при поступлении нескольких одновременных запросов ждем по всем по ним параллельно, а должен ждать последовательно. Нужно использовать asyncio.lock().

  • Написать тесты на slow()

call() vs get_all()

Почему нельзя везде использовать call()? Чем get_all() лучше?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.