Regex to Parse Hyperlinks and DescriptionsC#:什么是解析超链接及其描述的好的Regex? 请考虑大小写不敏感,空格以及HREF标记周围使用单引号(而不是双引号)的情况。
还请考虑获取在 只要没有嵌套标签(没有换行符),以下变体就可以很好地工作:
一旦嵌套标签起作用,正则表达式就不适合解析。但是,您仍然可以通过应用现代解释器的更多高级功能来使用它们(取决于正则表达式计算机)。例如。 .NET正则表达式使用堆栈;我找到了这个:
资料来源:http://weblogs.asp.net/scottcate/archive/2004/12/13/281955.aspx 请参阅StackOverflow的以下示例:用于解析网页链接的正则表达式? 使用HTML Agility Pack,您可以解析html,并使用HTML的语义(而不是损坏的正则表达式)提取详细信息。 我有一个可处理大多数情况的正则表达式,尽管我相信它确实与多行注释中的HTML匹配。 它使用.NET语法编写,但应易于翻译。 我发现了这一点,但显然这些家伙对此有一些问题。
编辑:(有效!)
这是一个匹配平衡标签的正则表达式。 (????(>()|(< - 深度>)|)+)(?!(深度)())?:(?。?""[""] *>)(:) 现在,只要我能正常工作,就将它扔掉。..这是一个较不贪心的版本。如果输入具有多个超链接,则原始的行不通。下面的代码将允许您循环浏览所有超链接:
|