GithubHelp home page GithubHelp logo

heyianle / douyin Goto Github PK

View Code? Open in Web Editor NEW

This project forked from erma0/douyin

0.0 0.0 0.0 159.98 MB

抖音爬虫——采集账号主页、喜欢、收藏、音乐原声、话题、搜索、合集、作品、关注、粉丝等公开数据。

License: GNU General Public License v3.0

Python 100.00%

douyin's Introduction

douyin

✨抖音爬虫

❤️开源不易,欢迎star⭐

📢声明

本项目初衷为学习python爬虫、命令行调用Aria2python实现WebUI的案例,程序功能为获取抖音平台上公开的信息,仅用于测试和学习研究,禁止用于商业用途或任何非法用途。

任何用户直接或间接使用、传播本仓库内容时责任自负,本仓库的贡献者不对该等行为产生的任何后果负责。

如果相关方认为该项目的代码可能涉嫌侵犯其权利,请及时联系我删除相关代码

使用本仓库的内容即表示您同意本免责声明的所有条款和条件。如果你不接受以上的免责声明,请立即停止使用本项目。


🏠项目地址

https://github.com/erma0/douyin

🍬功能

🎈获取抖音网页以下公开的数据信息:

  • 指定作品数据
  • 指定用户资料信息
  • 指定用户主页作品数据
  • 指定用户喜欢作品数据
  • 指定用户收藏作品数据
  • 指定音乐原声作品数据
  • 指定挑战话题作品数据
  • 指定合集作品数据
  • 指定用户关注列表数据
  • 指定用户粉丝列表数据
  • 指定关键词搜索作品数据
  • 指定关键词搜索用户数据
  • 指定关键词搜索直播数据
  • 指定作品评论数据
  • 指定作品评论回复数据

PS.

  • 支持输入文件路径批量操作(一行一个目标地址)
  • 支持增量采集指定用户主页作品

‍🚩待办

💡欢迎PR或建议

  • 完善程序 - 更新功能
  • GUI - Eel

🚀使用

📍测试环境:Win10 x64 + Python3.12

📭功能未全部测试,有问题请提交issue(请提供测试链接以便复现问题)

🍪获取cookie

🟢注意: cookie是有过期时间的,有效cookie内容一般在60条左右。

  1. 打开抖音网页版(推荐使用Chrome/Edge),按F12打开开发者工具,切换到网络/Network标签页

  2. 没有请求就刷新一下,找到https://www.douyin.com/或者其他JSON请求(可以在 过滤/筛选器 中输入cookie-name:odin_tt

  3. 标头/Headers中找到请求标头/Request Headers,复制Cookie的值,保存到config/cookie.txt文件中。

PS. 可以使用-c edge/chrome命令自动获取本地edge/chrome浏览器中的cookie,不过取到的cookie不一定有效,且有效期很短,仅作为备选功能使用(实测chrome有效,Edge经常无效)。

⚠️ 据说用作品详情页中/aweme/v1/web/aweme/detail/接口请求带的cookie成功率较高。

🉑直接运行

下载dist目录中的douyin.exe,在程序所在目录打开命令行,输入对应命令,或者直接双击打开douyin.exe后根据提示输入信息

⚠️ Linux或macOS请从官方地址下载对应的Aria2,然后自行修改源码调试运行

🐔使用帮助

./douyin -h

🏀使用例子(在程序所在目录打开命令行)

  • 获取指定用户主页/音乐/话题/合集/作品等数据

    # 部分类型链接可以自动识别,其他需要使用-t指定类型 
    ./douyin -u https://*/
    ./douyin -t search -u https://*/
  • 获取当前用户喜欢/收藏作品等数据

    ./douyin -t like
  • 其他功能

    # -l 限制数量,只需要前5条结果
    ./douyin -l 5 -u https://*/ 
    
    # 连续输入多个目标地址
    ./douyin -u https://*1/ -u https://*2/ 
    
    # 输入文件[user.txt]中的多个目标
    ./douyin -u ./user.txt
  • 💡 手动使用aria2c下载

    aria2c -c --console-log-level warn -i 生成的下载配置文件.txt

也可参考test.py文件中的代码使用

🔨编译

  1. 安装依赖

    pip install -r ./requirements.txt
  2. 安装pyinstaller

    pip install -U pyinstaller
  3. 打包EXE,图标可自行更换

    pyinstaller -F ./cli.py -i ./static/ico.ico -n douyin --add-data "lib:lib" --add-data "aria2c.exe:."
    
    # 或者使用配置文件
    pyinstaller ./douyin.spec

Star History

Star History Chart

douyin's People

Contributors

erma0 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.