Strip all HTML tags except links
我正在尝试编写一个正则表达式以除去链接(分别为
我使用的原始" strip标签"正则表达式是 并不是说它真的很重要,但是万一有人想知道我是在ActionScript 3.0中为Flash电影编写的。
试试这个。 p标签有类似的东西。为他们工作,所以不明白为什么不这样做。使用否定前瞻来检查它是否不匹配(以一个可选的/字符作为前缀),其中(使用肯定的前瞻)一个(带有可选的/前缀)后跟一个>或一个空格,填充然后是>。然后匹配直到下一个>字符。将此与
这应该只留下开始和结束标签 通常,这种方法存在问题。正则表达式最适合"平面"文本匹配-嵌套数据将正则表达式引擎推入其未设计的区域。常规HTML解析需要解析器而不是正则表达式引擎(如果您需要完整的技术细节,请使用Google了解常规语言和上下文无关语言之间的区别)。 通过用空字符串或它们的实体等效项替换/ 和/> /来剥离所有标记很容易,但是使用正则表达式选择性地筛选HTML将很容易受到各种意外或恶意输入的破坏。 我一直在继续,但是我无法经常推荐regexr。测试这种类型的东西真是太棒了。 干得好:
怎么样
?
在这里,我包括所有 标记并输出整理的版本:
|