HTML中的HTML Scraping

HTML中的HTML Scraping

HTML Scraping in Php

本问题已经有最佳答案,请猛点这里访问。

我一直在用正则表达式在PHP中做一些HTML抓取。这是可行的,但结果是脆弱和脆弱的。有人使用过提供更强大解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。


我建议在您从页面中抓取HTML之后,使用PHP简单的HTML DOM解析器。它支持无效的HTML,并提供了处理HTML元素的非常简单的方法。


我还推荐"简单的HTML DOM解析器"。这是一个很好的选择,特别是如果您熟悉jquery或javascript选择器,那么您会发现自己在家里。

我以前甚至写过博客。


我在使用HTMLSQL时有一些乐趣,这不是一个高端解决方案,但非常简单。


如果您正在抓取的页面是有效的x(ht)ml,那么PHP的任何内置XML解析器都可以。

我在使用PHP库进行抓取方面没有太大的成功。如果你有冒险精神,你可以试试简单的。我推荐红宝石版的hpricot,或者Python版的靓汤,这两个版本都是优秀的HTML解析器。


虽然我个人使用curl+regexp,但我推荐使用php进行HTML刮削,curl+regexp或curl+some dom解析器。如果你对regexp有深刻的品味,那么有时候它实际上更准确。


我不得不在我的主人1和1上使用卷发。

http://www.quickcrape.com/是我用简单的dom类想到的!


我对上面提到的简单的HTMLDOM解析器也有很好的理解。另外还有一个PHP的整洁扩展,它也很好地工作。


推荐阅读

    学习写字楼新选择6000元主流配置

    学习写字楼新选择6000元主流配置,,这种配置需要考虑双核心的办公和娱乐平台,充分考虑办公室的办公需求和娱乐需求,以约6000元的预算和cost-e

    酷睿I7 配置

    酷睿I7 配置,配置,玩家国度啦华硕 Rampage II Extreme(3800元)如果米不够,也可以把Extreme改为Gene,不过是小板内存推荐金士顿6G DDR3 2000骇

    提高3A四核羿龙II游戏配置的性能

    提高3A四核羿龙II游戏配置的性能,,以节能环保为主题的IT产业,目前3A低端平台处理器、主板芯片组、独立开发卡性能突出,特别是在与AMD的处理

    opporeno8参数配置及价格

    opporeno8参数配置及价格,面部,亿元,Oppo的荣誉2020年1月4日,接近屏幕关闭传感器是否支持双卡:支持oppor11splus什么时候上市的Oppo R11S P

    查看配置:酷睿i3530集展示办公平台

    查看配置:酷睿i3530集展示办公平台,,由于时间和精力的关系,我们不可能对所有的配置进行评论,希望我们能理解,我希望我们的评论能在那些需要帮

    3500元超额值学生娱乐结构的优化配置

    3500元超额值学生娱乐结构的优化配置,,作为一个DIY的主流用户领域的学生,每个用户51学生攒机的高峰。因为学生用户没有稳定的收入来源,攒机

    计算机蓝屏故障的计算机蓝屏解决方案

    计算机蓝屏故障的计算机蓝屏解决方案,,电脑蓝屏电脑故障经常使用电脑的朋友经常遇到,因为电脑蓝屏是一个非常普遍的现象,所以很难预测,什么时