🔊近看到有些人问服务器租用网有没有文章采集的软件,我很明确的告诉大家说,有!
只不过这个采集软件也需要我们自己手动写采集脚本然后进行数据采集。下面我们就以采集服务器吧新闻为例,教大家采集新闻。
首先我们需要的是一款火车头采集器软件,由于这款数据采集软件免费的限制很多,所以小编就找了个火车头。
文章末尾会分享给大家火车头下载地址。
软件主界面
我们先在服务器吧找一个栏目,采集该栏目下的文章,元典商学院社区小编这里选的是博客版,这个版面可以显示页码,而且文章是按照整站发布时间排序的,正是我们想要的🔊新文章。
我们找到这个栏目的页码部分,我们点到第二页,看看页码链接是什么样的。
我靠,这个网站对我们有深深的恶意,页码翻页没有直接链接,这我就不开心了,火车头想要采集每页数据,必须先获取页面链接,然后才能采集里面的网址,不过不用担心,以小编混迹江湖多年经验判断,他的翻页数据肯定在服务器请求里。于是我淡定的在浏览器界面按了F12调出开发者工具。
按照上图🔊network选项卡,然后勾选Preserve log和Disable cache两个选项(这是chrome浏览器)。
然后我们🔊第三页,看看我们的开发人员工具会记录什么信息。
出来一大堆东西,大多数都是图片请求,我们把滚动条向上拉到🔊顶,啊哈,我要的页码链接暴漏了。
图中链接里有个page=3小编就知道这个就是第三页的链接地址了,那么有了这个地址,我们可以随意获取第n页的链接了。我们双击这个链接,看看他的原型。
看到没,我们要的内容都在这里,我们在浏览器里把page=3改成page=2看看有什么变化。
文章内容也跟着变了,没错,这就是我们要找的地址了。
我们先在火车头中新建分组和任务
填写任务名称“热门资讯”,然后🔊起始网址右侧的添加按钮。
🔊批量多页选项卡,将页码链接粘贴到地址格式栏,然后将页码数字替换成通配符(*),这个通配符的意思是代表任意字符,然后设置这个通配符的变化形式,从1到10,也就是从🔊页到第十页。然后🔊添加,将地址规则添加到🔊下面的一栏,🔊完成。
这一步设置好后,接下来我们准备采集这个页面的所有链接,所以我们要指定一个采集范围。指定的边界必须在这个页面中是🔊的,没有第二个,要不程序判断范围会出错。因此我们选择的这个边界特征一定是包含所有要采集的链接,并且页面中🔊。
右键页码页面,查看源码。
上边界如🔊个图中圈出来的,下边界就是页码开始的一个div,这样这两个边界代码正好包含了所有文章的链接。
如上图所示,在多级网址获取右侧🔊添加,如图所示添加边界特征并保存。
🔊测试网址采集,查看采集链接是否正确。
上图中的链接是正确的,我们随便双击一条采集的链接,进入文章内容采集页面。
如上图,🔊测试,进行采集结果预览。
上图中可以看到,文章标题是采集正确的,但是内容却是各种代码,不是我们想要的真正的内容部分,这时,我们又得用到边界了,用页面🔊的边界确定我们内容所在的范围,随便用浏览器打开一条文章链接并查看页面源码,找到内容部分开始的边界代码。
再找到内容结束的边界代码。
双击页面采集中的内容标签进行编辑
在前后截取中添加边界代码,并确定。
将我们刚才获取源码的文章链接复制进来,🔊测试进行内容查看。
可以看到,内容正是我们想要的部分,只不过还有冗余的html代码,我们需要对内容进一步处理。
还是双击内容标签,🔊数据处理部分的添加按钮,选择html过滤。
一般根据经验,我们只保留文章格式相关的html标签,比如段落标签<p> 换行<br>,然后选择反选,将除段落和换行的标签选中,选中即代表🔊掉。还有个所有标签也要去掉勾选。然后点右侧的小确定按钮,之后再点🔊下面的确定按钮。
🔊测试,就可以看到我们想要的文章格式了。
我们会发现,文章和标题中都有it之家字样,我们想要把这些文章据为己有肯定不能有别人的字样,所以我们也要对标题和内容进一步数据处理。
标题去掉短线及后面的字符串,也就是把短线和后面的字符串替换成空白。
内容将服务器吧字样替换成自己的品牌词,如元典商学院社区。
🔊测试查看效果。
再换另一篇文章测试下,当然这种替换要自己懂得变通,预测会出现的词汇类型然后替换成自己想要的。
标题内容弄好了,我们就可以发布到网站或者本地了,由于篇幅原因,我这里先只讲发布到本地以txt文档保存。
如上图,🔊第三步发布内容选项卡,勾选方式二 保存为本地文件。选择一个记录保存为一个txt文件,保存位置自己选,文件模板我们可以自定义。
首先我们在桌面新建一个txt文档,并打开。
然后在文档中输入[标签:内容]
这个的意思就是将采集的内容放到文档里。记住“:”是英文的冒号。
然后🔊文件,另存为。
重命名,保存编码为utf-8。
在火车头发布页面,选择我们刚才建的模板,编码选utf-8,文件名格式选[标签:标题],🔊保存。
🔊保存后,右键我们新建的这个任务,点开始运行。
之后就开始正常采集文章了,采集截图如下:
好了,本教程到此结束了,如果大家还有什么不懂的可以到下面评论框留言。
下载地址:
解压密码:www.fuwuqizuyong.cc