GithubHelp home page GithubHelp logo

xisuo67 / xhs-spider Goto Github PK

View Code? Open in Web Editor NEW
763.0 6.0 43.0 8.62 MB

小红书数据采集、网站图片、视频资源批量下载工具,颜值超高的数据采集工具(批量下载,视频提取,图片,去水印等)Telegram:https://t.me/+ZtLSwuIKTo44MDY1

Home Page: https://xisuo67.website/XHS-Spider-Doc/

License: GNU General Public License v3.0

downloader wpf wpf-ui wpf-notifyicon csharp crawler

xhs-spider's Introduction

XHS.Spider颜值超高的数据采集工具

The ocean is not Japan's trash can, and we will firmly resist Japan's discharge of nuclear wastewater. Protecting the oceans is everyone's responsibility

GitHub Repo stars GitHub forks GitHub issues GitHub

XHS.Spider是一款颜值超高的小红书数据采集工具

说明

最近这个仓库受到了大量的关注,本身我开源出来这个仓库的目的是提供一种新思路分享给大家学习和了解爬虫。 但是随着热度的不断暴涨,随之而来的是该仓库可能给平台方带来不少的服务器压力,以及一些其他不好的影响(虽然我有免责声明,但是不能控制一些使用该仓库的人) 所以综合考虑之下,决定清除该仓库,不在维护。我不想给自己带来一些不必要的麻烦,本来就没从中得到些什么,风险还很高!大家江湖再见

环境说明

  • XHS-Spider目前仅支持windows操作系统,其他操作系统不支持
  • 视频演示
  • XHS-Spider依托于.Net 6.0开发完成,这意味着你需要安装.Net 6.0运行时才能运行它,如果你的环境没有安装该运行时,启动XHS-Spider会提示异常信息。
    • 如何安装运行时,请查看运行说明相关文档。
  • 如何申请授权,请自行查看授权教程

郑重说明

  • 由于XHS.Spider近期一直被各种平台用于付费资源下载,更有甚者甚至连作者名字都改掉了。考虑种种原因,自v1.0.1.4版本后,程序将提供授权文件才可使用,并且不再开源,仅提供下载程序!
  • XHS.Spider自v1.0.1.5版本后做出重大调整,新增授权文件,并增加持久化,最小化到托盘等功能。以前版本不在维护,并且自该版本后,不再开源。大家可以根据自己需求下载对应版本。最后感谢各位支持,谢谢大家
  • 作者本人欢迎大家帮忙推广XHS-Spider,但未经本人允许不得擅自将XHS-Spider作为资源形式售卖或提供付费下载。
  • 作者已在多个网站发现有人未经作者本人允许,将XHS-Spider作为独立下载资源单独分享下载。
    • 以下为其它途径地址,看到的请自行移除下载资源,否者作者将追究相应责任。欢迎大家随时补充,开源不易,且行且珍惜……

使用条款

无论出于任何目的、以任何形式使用本项目或其源代码,即表示您默示同意以下所有声明:

  • 您承认****领土不可分割的一部分

  • 您支持**领土完整

  • 任何妄图分裂**的组织及个人不允许使用该软件

  • 日本核污水排海是不负责任行为,终将自食其果!!! Show it Ben,Watch out Limar

说明

  • 仅用于学习使用,学习webview2、wpf-ui。

  • XHS.Spider为学习项目,为有效控制XHS.Spider爬取数据对小红书服务器造成压力,XHS.Spider增加授权机制,授权时长仅为一天,且不支持延期,唯一延期途径为通过小程序免费申请延期。后面会根据实际用户注册情况合理缩减延期时长,避免因用户增多对小红书服务器造成压力。

  • 最后特别说明:不要用于商业用途,该项目仅用于学习。任何涉及商业盈利目的均不得使用,作者保留一切法律途径维护本人合法利益。

  • 关注小程序了解更多

免责声明

  • 本软件提供的所有内容,仅可用作学习交流使用,未经原作者授权,禁止用于其他用途。请在下载24小时内删除。为尊重作者版权,请前往资源的原始发布网站观看,支持原创,谢谢。
  • 本软件下载得到的所有内容均来自小红书博主上传、分享,其版权均归原作者所有。内容提供者、上传者应对其提供、上传的内容承担全部责任。
  • 因使用本软件产生的版权问题,软件作者概不负责。
  • 任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担。

Star History

Star History Chart

下载

GitHub release (latest by date) GitHub Release Date GitHub all releases

更新日志

开发路线

查看开发路线来了解我的开发计划。

如何贡献

  • 通过 Issue 报告:bug:或进行咨询。

  • bug反馈:

    • 请查询Issue中是否存在相同问题
    • 附带使用环境及相应链接
  • 功能需求反馈:

    • 定期收集合理需求
    • 由于维护多个开源项目个人精力有限,不定期更新,勿催

特别感谢

自v1.0.1.5版本后,永不开源,感谢各位长久以来的支持

特别感谢shubihaohao为新版XHS.Spider设计的背景图以及程序图标

xhs-spider's People

Contributors

xisuo67 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

xhs-spider's Issues

批量下载文件夹为空

下载某一博主下面所有内容的时候,只生成了文件夹,没有图片,偶尔有几个文件夹有视频文件,一共大概2000+文件夹,不知道什么原因

显示“硬件信息获取失败,无法绑定授权信息”

大佬看看我这,搜了下log日志,发现有这个错误,是不是电脑太老的原因,7、8年前的老电脑了

2023-09-16 11:00:16.138 [5] ERROR XHS.Spider.Views.Windows.MainWindow
硬件信息获取失败
The type initializer for 'SecurityServiceProvider.MachineInfo' threw an exception.
at SecurityServiceProvider.MachineInfo..ctor() in G:\GitHub\个人\XHS-Spider-Pro\src\SecurityServiceProvider\MachineInfo.cs:line 206
at XHS.Spider.Views.Windows.MainWindow.VerifyLicensesCode() in G:\GitHub\个人\XHS-Spider-Pro\src\XHS.Spider\Views\Windows\MainWindow.xaml.cs:line 279

1.0.1.4版本,在使用中发现的4个问题和建议

先说下,软件非常好,感谢作者的辛苦付出!!以下是使用中发现的3个问题:

1.如果先搜索到了内容,再切换为“设置页”,然后切换回“搜索页”,内容没有了,还是让搜索;
2.搜索结果,无法全选,点击全选时,只”反选“了当前能看到的笔记,并且全选的勾勾状态不正确;
3.扫描结果缺失,最后几篇笔记并未显示出来;
4.下拉界面扩大时,列表中最多显示9条笔记,下方为空白区域。

以下是一点点小建议:
1.增加笔记总数显示,现在已解析数量知道,但是并不知道解析到什么位置了;
2.增加边解析边下载功能,即解析后自动下载;
3.增加点击下载已选项时,如笔记未解析,则自动解析,并且在解析后自动下载;
4.在页面最下边增加一条状态栏,以显示下载进度、提示或者错误等信息,目前提示是使用WINDOWS弹窗提示的;
5.在能保证账号安全或者服务器允许的情况下,增加多线程下载,适当提高下载速度。

搜索框输入URL的识别BUG

在搜索界面时可以正常识别url地址是单条笔记还是博主首页地址,但在已搜索出结果的页面内重新输入URL搜索,就不再识别,都按上一次搜索的URL类型匹配,如第一次使用单条笔记URL搜索,此时再输入博主首页地址,就会报错,提示当前URL不符合所属模块搜索要求。
出现问题版本好:1.0.1.9

去水印是否还正常?

请教一下作者大大,小红书于昨日更新了代码,所有的traceId都变成了空,之前主流的去水印思路是通过traceId构造无水印的图像链接,请问XHS-Spider在这次更新后还能爬取到无水印图片吗?

下載功能接口出現異常

image
版本號v1.019
還是下載圖片失敗
更換版本
重新啟動軟體
重新啟動設備
均如圖片上所 顯示 但是視頻發佈出去又可以正常顯示出來

about other function

I think if you can get the user information through the crawler, then you can also find the corresponding XHS user information through the current application domain for quick login, as long as you log in to Xiaohongshu locally, you can directly and quickly log in to XHS-Spider; It's like logging into QQ locally and then opening wegame

关于XHS.Spider使用问题

  • 程序闪退
    • 检查是否安装.net 6.0运行时
    • 程序启动后闪退,检查是否安装webview2运行时
  • 关于采集数据只有10条问题
    • 大哥们,你们能扫码登录嘛?天天问,我也很无奈啊!文档不看,录的操作视频也不看,我不是客服不要疯狂@作者
  • 关于数据采集
    • 数据采集有封号风险,请大家谨慎采集,封号作者概不负责

I just banned from xiaohongshu after using XHS-Spider-v1.0.1.3

Screenshot_20230826-023309

ShareX_fzK5Ijmdt0

A few days ago, I used the new version 1.6, but when analyzing the link, the application stopped working and quit, so I used the 1.3 version that I found the most stable. All images downloaded to me are only saved in my computer, and are not used for any commercial purposes.

Recently I have used XHS-Spider-v1.0.1.3 to download images on xiaohongshu, I have logged in on my phone and chrome. Every time I use it, I have to scan the QR code, and the account on the website will be log out.

Tonight after downloading pictures from an account, I got banned on the phone app. I don't know Chinese so I'm quite confused, and I don't know if I can get my account back or not?
So people should be careful when using it. I'm so sad right now.

对于封号风险的应对思路

有个小程序叫小红图去水印,可以不登录就保存图片,保存图片都是webp和jpg格式的。
像素我对比了一下和本项目是一样的,唯一的缺点是无法一键保存。
我在想这个东西是用的僵尸账号收集素材吗?
还是说有什么方法可以规避登陆或封号风险?
亦或是特意不加一键保存所有作品的功能来规避封号风险?(这里可以想出小红书的检测方法可能是用户是否在很短的时间内访问了大量作品,是否可以给本项目加一个定时器来下载作品,从而规避掉封号风险呢?)

Win7报错:XHS.Spider 已停止工作

MicrosoftEdgeWebView2RuntimeInstallerX64.exe
windowsdesktop-runtime-6.0.18-win-x64.exe
以上已安装

问题事件名称: APPCRASH
应用程序名: XHS.Spider.exe
应用程序版本: 1.0.1.3
应用程序时间戳: 63cf74d2
故障模块名称: KERNELBASE.dll
故障模块版本: 6.1.7601.24408
故障模块时间戳: 5c92f34f
异常代码: e0434352
异常偏移: 000000000000be0d
OS 版本: 6.1.7601.2.1.0.256.1
区域设置 ID: 2052
其他信息 1: b529
其他信息 2: b529a52bfb7e1058e2da37b42b96f515
其他信息 3: 7107
其他信息 4: 7107d610e7d9a763b92a431bdc76df1a

能不能新增web的搜索的数据呀。

能不能新增web的搜索的数据呀。

web搜索,输入关键词,返回的有默认排序,还有最热排序,还有最新排序。

分别三个数据的返回,可以搞吗?

全选问题

全选只能勾选上页面显示部分,且当下滑到无勾选部分时取消勾选会对当前显示部分进行勾选(显示部分已勾选则取消勾选

只能看到前11条笔记

搜索博主首页只能看到前11条的内容,后面的看不到,图表也没有翻页的内容。不知道问题出在哪?

希望增加下载点赞帖子的功能

小红书上帖子质量良莠不齐,很少会有大部分帖子都值得保存的作者,更值得下载保存的往往是自己收藏或者点赞的帖子。

所以,希望增加登录后下载自己点赞的帖子的功能。

谢谢。

下载进度功能

希望新增下载进度显示,一件选中全部解析,现在全部选中只是选中当前界面展示的那几条

2.0版本增加设置-避免自动获取复制的链接后会造成解析或下载时的问题

Discussed in #84

Originally posted by canyuehen June 28, 2023
不知道大家有没有这个问题,
1、我复制了主页链接进行解析,最小化了软件。
2、在解析过程中我看到了一个视频,就复制了链接用小程序下载,但是软件就会自动获取复制的链接并且确认,之前解析了的就会消失,要重新操作第一步。
整体来说就是在解析和下载过程中不能复制链接

XHS-Spider新需求收集

XHS-Spider 目前短时间内除修复bug外,不会发布更新包。作者想暂缓该项目的研发投入,主要问题有以下几点原因:

  • 目前功能基本满足大部分人采集需求,未收集新需求的情况下,不准备快速迭代
  • 目前作者投入另外一个项目中,短时间也没太多精力维护这个项目
  • 各位如果有好的需求或想法,可以提交至Issues,合理建议通过后,会加入迭代计划

只能看到前11条笔记

搜索博主首页只能看到前11条的内容,后面的看不到,图表也没有翻页的内容。不知道问题出在哪?

功能建议

给孩子加个进度条或者任务完成情况吧。

具体是批量采集作品->批量下载->跳转到其他页面,下载任务还在后台运行,但总体下载进度就不见了,只能眼睁睁的看着系统一个一个的冒提示,前两天下了一个作者的1000+作品,提示提的烦死了还不敢关,不知道什么时候结束。

建议看看能不能搞个后台下载任务的进度条啥的,显示当前下载任务队列,和下载信息。

自动获取复制的链接后会造成解析或下载时的问题

不知道大家有没有这个问题,
1、我复制了主页链接进行解析,最小化了软件。
2、在解析过程中我看到了一个视频,就复制了链接用小程序下载,但是软件就会自动获取复制的链接并且确认,之前解析了的就会消失,要重新操作第一步。
整体来说就是在解析和下载过程中不能复制链接

尝试多个版本程序均闪退

安装多个.net 6.0及以上的环境都不行,XHS-Spider从 v1.0.0.6开始直到最新版都这情况,v1.0.0.5菜单正常使用。

报错在事件查看器中如下,和这个路径有关系吗?

 at XHS.Spider.Views.Pages.Search.InitializeAsync() in G:\代码\GitHub\WPF项目\XHS-Spider\src\XHS.Spider\Views\Pages\Search.xaml.cs:line 51
错误应用程序名称: XHS.Spider.exe,版本: 1.0.0.8,时间戳: 0x63cf74d2
错误模块名称: KERNELBASE.dll,版本: 10.0.17763.134,时间戳: 0x1659a33b
异常代码: 0xe0434352
错误偏移量: 0x0000000000055299
错误进程 ID: 0xc9c4
错误应用程序启动时间: 0x01d98df18de04b37
错误应用程序路径: C:\Users\Administrator\Downloads\XHS.Spider-v1.0.0.8\XHS.Spider-v1.0.0.8\XHS.Spider.exe
错误模块路径: C:\Windows\System32\KERNELBASE.dll
报告 ID: 56be141c-0f1b-4a3a-a85b-53ca90bdefe0
错误程序包全名: 
错误程序包相对应用程序 ID: 
Application: XHS.Spider.exe
CoreCLR Version: 6.0.1623.17311
.NET Version: 6.0.16
Description: The process was terminated due to an unhandled exception.
Exception Info: Microsoft.Web.WebView2.Core.WebView2RuntimeNotFoundException: Couldn't find a compatible Webview2 Runtime installation to host WebViews.
 ---> System.IO.FileNotFoundException: 系统找不到指定的文件。 (0x80070002)
   --- End of inner exception stack trace ---
   at Microsoft.Web.WebView2.Core.CoreWebView2Environment.CreateAsync(String browserExecutableFolder, String userDataFolder, CoreWebView2EnvironmentOptions options)
   at Microsoft.Web.WebView2.Wpf.WebView2.<>c__DisplayClass34_0.<<EnsureCoreWebView2Async>g__Init|0>d.MoveNext()
--- End of stack trace from previous location ---
   at XHS.Spider.Views.Pages.Search.InitializeAsync() in G:\代码\GitHub\WPF项目\XHS-Spider\src\XHS.Spider\Views\Pages\Search.xaml.cs:line 51
   at System.Threading.Tasks.Task.<>c.<ThrowAsync>b__128_0(Object state)
   at System.Windows.Threading.ExceptionWrapper.InternalRealCall(Delegate callback, Object args, Int32 numArgs)
   at System.Windows.Threading.ExceptionWrapper.TryCatchWhen(Object source, Delegate callback, Object args, Int32 numArgs, Delegate catchHandler)
   at System.Windows.Threading.DispatcherOperation.InvokeImpl()
   at System.Windows.Threading.DispatcherOperation.InvokeInSecurityContext(Object state)
   at MS.Internal.CulturePreservingExecutionContext.CallbackWrapper(Object obj)
   at System.Threading.ExecutionContext.RunInternal(ExecutionContext executionContext, ContextCallback callback, Object state)
--- End of stack trace from previous location ---
   at System.Threading.ExecutionContext.RunInternal(ExecutionContext executionContext, ContextCallback callback, Object state)
   at System.Threading.ExecutionContext.Run(ExecutionContext executionContext, ContextCallback callback, Object state)
   at MS.Internal.CulturePreservingExecutionContext.Run(CulturePreservingExecutionContext executionContext, ContextCallback callback, Object state)
   at System.Windows.Threading.DispatcherOperation.Invoke()
   at System.Windows.Threading.Dispatcher.ProcessQueue()
   at System.Windows.Threading.Dispatcher.WndProcHook(IntPtr hwnd, Int32 msg, IntPtr wParam, IntPtr lParam, Boolean& handled)
   at MS.Win32.HwndWrapper.WndProc(IntPtr hwnd, Int32 msg, IntPtr wParam, IntPtr lParam, Boolean& handled)
   at MS.Win32.HwndSubclass.DispatcherCallbackOperation(Object o)
   at System.Windows.Threading.ExceptionWrapper.InternalRealCall(Delegate callback, Object args, Int32 numArgs)
   at System.Windows.Threading.ExceptionWrapper.TryCatchWhen(Object source, Delegate callback, Object args, Int32 numArgs, Delegate catchHandler)
   at System.Windows.Threading.Dispatcher.LegacyInvokeImpl(DispatcherPriority priority, TimeSpan timeout, Delegate method, Object args, Int32 numArgs)
   at MS.Win32.HwndSubclass.SubclassWndProc(IntPtr hwnd, Int32 msg, IntPtr wParam, IntPtr lParam)
   at MS.Win32.UnsafeNativeMethods.DispatchMessage(MSG& msg)
   at System.Windows.Threading.Dispatcher.PushFrameImpl(DispatcherFrame frame)
   at System.Windows.Threading.Dispatcher.PushFrame(DispatcherFrame frame)
   at System.Windows.Threading.Dispatcher.Run()
   at System.Windows.Application.RunDispatcher(Object ignore)
   at System.Windows.Application.RunInternal(Window window)
   at System.Windows.Application.Run()
   at XHS.Spider.App.Main()

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.