war??? about newcrawler HOT 15 OPEN

whairg commented on August 26, 2024

Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war???

from newcrawler.

Comments (15)

speed commented on August 26, 2024

下载这两个
https://github.com/speed/windows-64bit-jetty-jre/archive/master.zip 解压成 windows-64bit-jetty-jre
https://github.com/speed/newcrawler/archive/master.zip 解压成 newcrawler

2.替换 newcrawler/war 到 windows-64bit-jetty-jre/war

3.点击 start.bat 运行

4.等一会就可以在浏览器里访问 http://127.0.0.1:8500/

5.需要在newcrawler.com注册帐号

from newcrawler.

whairg commented on August 26, 2024

HTTP ERROR: 503
Problem accessing /. Reason:

Service Unavailable

from newcrawler.

whairg commented on August 26, 2024

启动的时候显示这个。

from newcrawler.

speed commented on August 26, 2024

能把上半部的异常也截图看下吗？

from newcrawler.

whairg commented on August 26, 2024

您好，这是点击start.bat的所有信息。目前服务器是windows2012 R2系统，

这是打开http://127.0.0.1:8500/报的错误，

这是JAVA版本。

javac编译都没问题，java环境没问题。

这是文件，都覆盖过去了。

from newcrawler.

speed commented on August 26, 2024

是NewCrawler自带的JRE版本低了，需要你将start.bat文件里的这一行删掉（我看到你有JDK1.8的环境）
set path="%~dp0jre\bin"
删掉后你再启动

from newcrawler.

whairg commented on August 26, 2024

您好，

可以打开了，
http://www.dianping.com/guangzhou/ch30/g141
这个是我要采集的网站，但是输入进去的时候显示这样，。

也无法像视频那样选择需要采集的字段。

from newcrawler.

speed commented on August 26, 2024

你使用了chrome插件支持，需要下载
https://github.com/speed/newcrawler-plugin-urlfetch-chrome/archive/master.zip
并修改这个插件配置， chromedriver.exe， ModHeader.crx 这两个文件位置要正确

from newcrawler.

whairg commented on August 26, 2024

您好，

为啥这个下一页测试的时候获取不到？

from newcrawler.

whairg commented on August 26, 2024

设置好下一页链接提取规则，
这个下一页的链接提取规则怎么设置？

from newcrawler.

whairg commented on August 26, 2024

下一页的提取规则请问是在这里填写吗？请问http：//${property3}?pageNo=${page(1,1,50)}&PARAM1=${3}，PARAM1=${3}是什么意思？

from newcrawler.

whairg commented on August 26, 2024

还有问题，乱码这个怎么解决？
不好意思，第一次用这个比较多问题，麻烦了。

from newcrawler.

speed commented on August 26, 2024

自定义下一页CSS路径
div.page > a.next

from newcrawler.

speed commented on August 26, 2024

页面没乱码？

from newcrawler.

whairg commented on August 26, 2024

您好，

页面没有乱码，

用自定义下一页CSS路径
div.page> a.next这个方式，测试采集的时候还是没有办法采集下一页的信息出来。

from newcrawler.

Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war??? about newcrawler HOT 15 OPEN

Comments (15)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs