您的位置 首页 网站建设

数据采集_火车头采集器_文章采集_火车头采集软件

数据采集_火车头采集器_文章采集_火车头采集软件 最近看到有些人问服务器租用网有没有文章采集的软件,我很明确的…

数据采集_火车头采集器_文章采集_火车头采集软件

最近看到有些人问服务器租用网有没有文章采集的软件,我很明确的告诉大家说,有!

只不过这个采集软件也需要我们自己手动写采集脚本然后进行数据采集。下面我们就以采集IT之家新闻为例,教大家采集新闻。

首先我们需要的是一款火车头采集器软件,由于这款数据采集软件免费的限制很多,所以小编就找了个火车头。

文章末尾会分享给大家火车头下载地址。

软件主界面

我们先在IT之家找一个栏目,采集该栏目下的文章,元典商学院社区小编这里选的是博客版,这个版面可以显示页码,而且文章是按照整站发布时间排序的,正是我们想要的最新文章。

我们找到这个栏目的页码部分,我们点到第二页,看看页码链接是什么样的。

我靠,这个网站对我们有深深的恶意,页码翻页没有直接链接,这我就不开心了,火车头想要采集每页数据,必须先获取页面链接,然后才能采集里面的网址,不过不用担心,以小编混迹江湖多年经验判断,他的翻页数据肯定在服务器请求里。于是我淡定的在浏览器界面按了F12调出开发者工具。

按照上图点击network选项卡,然后勾选Preserve log和Disable cache两个选项(这是chrome浏览器)。

然后我们点击第三页,看看我们的开发人员工具会记录什么信息。

出来一大堆东西,大多数都是图片请求,我们把滚动条向上拉到最顶,啊哈,我要的页码链接暴漏了。

图中链接里有个page=3小编就知道这个就是第三页的链接地址了,那么有了这个地址,我们可以随意获取第n页的链接了。我们双击这个链接,看看他的原型。

看到没,我们要的内容都在这里,我们在浏览器里把page=3改成page=2看看有什么变化。

文章内容也跟着变了,没错,这就是我们要找的地址了。

我们先在火车头中新建分组和任务

填写任务名称“热门资讯”,然后点击起始网址右侧的添加按钮。

点击批量多页选项卡,将页码链接粘贴到地址格式栏,然后将页码数字替换成通配符(*),这个通配符的意思是代表任意字符,然后设置这个通配符的变化形式,从1到10,也就是从第一页到第十页。然后点击添加,将地址规则添加到最下面的一栏,点击完成。

这一步设置好后,接下来我们准备采集这个页面的所有链接,所以我们要指定一个采集范围。指定的边界必须在这个页面中是唯一的,没有第二个,要不程序判断范围会出错。因此我们选择的这个边界特征一定是包含所有要采集的链接,并且页面中独一无二。

右键页码页面,查看源码。

上边界如第一个图中圈出来的,下边界就是页码开始的一个div,这样这两个边界代码正好包含了所有文章的链接。

如上图所示,在多级网址获取右侧点击添加,如图所示添加边界特征并保存。

点击测试网址采集,查看采集链接是否正确。

上图中的链接是正确的,我们随便双击一条采集的链接,进入文章内容采集页面。

如上图,点击测试,进行采集结果预览。

上图中可以看到,文章标题是采集正确的,但是内容却是各种代码,不是我们想要的真正的内容部分,这时,我们又得用到边界了,用页面独一无二的边界确定我们内容所在的范围,随便用浏览器打开一条文章链接并查看页面源码,找到内容部分开始的边界代码。

再找到内容结束的边界代码。

双击页面采集中的内容标签进行编辑

在前后截取中添加边界代码,并确定。

将我们刚才获取源码的文章链接复制进来,点击测试进行内容查看。

可以看到,内容正是我们想要的部分,只不过还有冗余的html代码,我们需要对内容进一步处理。

还是双击内容标签,点击数据处理部分的添加按钮,选择html过滤。

一般根据经验,我们只保留文章格式相关的html标签,比如段落标签<p> 换行<br>,然后选择反选,将除段落和换行的标签选中,选中即代表清除掉。还有个所有标签也要去掉勾选。然后点右侧的小确定按钮,之后再点最下面的确定按钮。

点击测试,就可以看到我们想要的文章格式了。

我们会发现,文章和标题中都有it之家字样,我们想要把这些文章据为己有肯定不能有别人的字样,所以我们也要对标题和内容进一步数据处理。

标题去掉短线及后面的字符串,也就是把短线和后面的字符串替换成空白。

内容将IT之家字样替换成自己的品牌词,如元典商学院社区。

点击测试查看效果。

再换另一篇文章测试下,当然这种替换要自己懂得变通,预测会出现的词汇类型然后替换成自己想要的。

标题内容弄好了,我们就可以发布到网站或者本地了,由于篇幅原因,我这里先只讲发布到本地以txt文档保存。

如上图,点击第三步发布内容选项卡,勾选方式二 保存为本地文件。选择一个记录保存为一个txt文件,保存位置自己选,文件模板我们可以自定义。

首先我们在桌面新建一个txt文档,并打开。

然后在文档中输入[标签:内容]

这个的意思就是将采集的内容放到文档里。记住“:”是英文的冒号。

然后点击文件,另存为。

重命名,保存编码为utf-8。

在火车头发布页面,选择我们刚才建的模板,编码选utf-8,文件名格式选[标签:标题],点击保存。

点击保存后,右键我们新建的这个任务,点开始运行。

之后就开始正常采集文章了,采集截图如下:

好了,本教程到此结束了,如果大家还有什么不懂的可以到下面评论框留言。

下载地址:

[fanctdl filename=’数据采集‘ filesize=’40M’ filedate=’2017.03.24′ href=’http://pan.baidu.com/s/1eSh3SDc’ filedown=’点击下载’]解压密码:www.fuwuqizuyong.cc[/fanctdl]

服务器租用网(主机吧)所有文章非注明转载的均为站长原创,转载请注明出处:https://www.fuwuqizuyong.cc/570.html
服务器租用

作者: 服务器租用

服务器租用专注为广大站长与网友朋友分享建站教程、SEO优化文章、网站模板资源、服务器软件(Web环境、建站程序)等,另外为大家推荐各种国内外服务器、香港服务器、虚拟主机、域名购买优惠信息与服务器相关知识。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

联系我们

18033782514

在线咨询: QQ交谈

邮箱: 564999054@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部