去除器

phpcms文章采集器之采集内容规范百

发布时间:2024/9/23 14:45:25   
在我们应用PHPCMS采集器进行采集的时候,需要指定文章的标题、内容、作者、出去等标签信息,并且对页面进行修正,去除一些多余的HTML标签。本文简单介绍如何实现上述操作。我们需要在第一步中单击任意地址跳转到第二部页面观察之后的界面,我们发现自动已经被设置,器内容为“百度新闻搜索——体育新闻”,我们需要在此删除“——体育新闻”字段。双击标签,在弹出的选项卡中点击按钮,在弹出的快捷菜单中选择,并按图设置。之后我们双击标签,在此我们可以通过等多种方式提取网页的正文数据。通过对网页的分析,我们确定从那个HTML标签处开始提取,比如本文中为:olclass=exp-conent-orderlist,结束字符则为/ol此外,我们还可以通过模块,将文本中多余的HTML标签删除,如下图所示。至此,内容采集到此结束。整个步骤最关键的为只有截取正确的HTML代码,才能达到只留文本信息而屏蔽代码的目的。

转载请注明:http://www.aideyishus.com/lkgx/7638.html
------分隔线----------------------------