注册 登录

数据采集_火车头采集器_文章采集_火车头破解版采集软件

网站建设 服务器租用 2378次浏览 0个评论 扫描二维码

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

最近看到有些人问服务器租用网有没有文章采集的软件,我很明确的告诉大家说,有!

只不过这个采集软件也需要我们自己手动写采集脚本然后进行数据采集。下面我们就以采集IT之家新闻为例,教大家采集新闻。

首先我们需要的是一款火车头采集器软件,由于这款数据采集软件免费的限制很多,所以小编就找了个火车头破解版的。

文章末尾会分享给大家火车头破解版下载地址。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

软件主界面

我们先在IT之家找一个栏目,采集该栏目下的文章,元典商学院社区小编这里选的是博客版,这个版面可以显示页码,而且文章是按照整站发布时间排序的,正是我们想要的最新文章。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

我们找到这个栏目的页码部分,我们点到第二页,看看页码链接是什么样的。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

我靠,这个网站对我们有深深的恶意,页码翻页没有直接链接,这我就不开心了,火车头想要采集每页数据,必须先获取页面链接,然后才能采集里面的网址,不过不用担心,以小编混迹江湖多年经验判断,他的翻页数据肯定在服务器请求里。于是我淡定的在浏览器界面按了F12调出开发者工具。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

按照上图点击network选项卡,然后勾选Preserve log和Disable cache两个选项(这是chrome浏览器)。

然后我们点击第三页,看看我们的开发人员工具会记录什么信息。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

出来一大堆东西,大多数都是图片请求,我们把滚动条向上拉到最顶,啊哈,我要的页码链接暴漏了。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

图中链接里有个page=3小编就知道这个就是第三页的链接地址了,那么有了这个地址,我们可以随意获取第n页的链接了。我们双击这个链接,看看他的原型。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

看到没,我们要的内容都在这里,我们在浏览器里把page=3改成page=2看看有什么变化。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

文章内容也跟着变了,没错,这就是我们要找的地址了。

我们先在火车头中新建分组和任务

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

填写任务名称“热门资讯”,然后点击起始网址右侧的添加按钮。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

点击批量多页选项卡,将页码链接粘贴到地址格式栏,然后将页码数字替换成通配符(*),这个通配符的意思是代表任意字符,然后设置这个通配符的变化形式,从1到10,也就是从第一页到第十页。然后点击添加,将地址规则添加到最下面的一栏,点击完成。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

这一步设置好后,接下来我们准备采集这个页面的所有链接,所以我们要指定一个采集范围。指定的边界必须在这个页面中是唯一的,没有第二个,要不程序判断范围会出错。因此我们选择的这个边界特征一定是包含所有要采集的链接,并且页面中独一无二。

右键页码页面,查看源码。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

上边界如第一个图中圈出来的,下边界就是页码开始的一个div,这样这两个边界代码正好包含了所有文章的链接。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

如上图所示,在多级网址获取右侧点击添加,如图所示添加边界特征并保存。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

点击测试网址采集,查看采集链接是否正确。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

上图中的链接是正确的,我们随便双击一条采集的链接,进入文章内容采集页面。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

如上图,点击测试,进行采集结果预览。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

上图中可以看到,文章标题是采集正确的,但是内容却是各种代码,不是我们想要的真正的内容部分,这时,我们又得用到边界了,用页面独一无二的边界确定我们内容所在的范围,随便用浏览器打开一条文章链接并查看页面源码,找到内容部分开始的边界代码。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

再找到内容结束的边界代码。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

双击页面采集中的内容标签进行编辑

数据采集_火车头采集器_文章采集_火车头破解版采集软件

在前后截取中添加边界代码,并确定。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

将我们刚才获取源码的文章链接复制进来,点击测试进行内容查看。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

可以看到,内容正是我们想要的部分,只不过还有冗余的html代码,我们需要对内容进一步处理。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

还是双击内容标签,点击数据处理部分的添加按钮,选择html过滤。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

一般根据经验,我们只保留文章格式相关的html标签,比如段落标签<p> 换行<br>,然后选择反选,将除段落和换行的标签选中,选中即代表清除掉。还有个所有标签也要去掉勾选。然后点右侧的小确定按钮,之后再点最下面的确定按钮。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

点击测试,就可以看到我们想要的文章格式了。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

我们会发现,文章和标题中都有it之家字样,我们想要把这些文章据为己有肯定不能有别人的字样,所以我们也要对标题和内容进一步数据处理。

标题去掉短线及后面的字符串,也就是把短线和后面的字符串替换成空白。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

内容将IT之家字样替换成自己的品牌词,如元典商学院社区。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

点击测试查看效果。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

再换另一篇文章测试下,当然这种替换要自己懂得变通,预测会出现的词汇类型然后替换成自己想要的。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

标题内容弄好了,我们就可以发布到网站或者本地了,由于篇幅原因,我这里先只讲发布到本地以txt文档保存。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

如上图,点击第三步发布内容选项卡,勾选方式二 保存为本地文件。选择一个记录保存为一个txt文件,保存位置自己选,文件模板我们可以自定义。

首先我们在桌面新建一个txt文档,并打开。

然后在文档中输入[标签:内容]

数据采集_火车头采集器_文章采集_火车头破解版采集软件

这个的意思就是将采集的内容放到文档里。记住“:”是英文的冒号。

然后点击文件,另存为。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

重命名,保存编码为utf-8。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

在火车头发布页面,选择我们刚才建的模板,编码选utf-8,文件名格式选[标签:标题],点击保存。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

点击保存后,右键我们新建的这个任务,点开始运行。

数据采集_火车头采集器_文章采集_火车头破解版采集软件

之后就开始正常采集文章了,采集截图如下:

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

数据采集_火车头采集器_文章采集_火车头破解版采集软件

好了,本教程到此结束了,如果大家还有什么不懂的可以到下面评论框留言。

下载地址:

文件下载
服务器租用(www.fuwuqizuyong.cc) , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明:数据采集_火车头采集器_文章采集_火车头破解版采集软件
服务器租用
喜欢 (1)
[]
分享 (0)
服务器租用
关于作者:
服务器租用专注为广大站长与网友朋友分享建站教程、SEO优化文章、网站模板资源、服务器软件(Web环境、建站程序)等,另外为大家推荐各种国内外服务器、香港服务器、虚拟主机、域名购买优惠信息与服务器相关知识。
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到