关于html：Regex解析超链接和描述

Regex to Parse Hyperlinks and Descriptions

C＃：什么是解析超链接及其描述的好的Regex？

请考虑大小写不敏感，空格以及HREF标记周围使用单引号(而不是双引号)的情况。

还请考虑获取在标记内具有其他标记的超链接，例如和。
---------------------------------

只要没有嵌套标签(没有换行符)，以下变体就可以很好地工作：

(.*?)

一旦嵌套标签起作用，正则表达式就不适合解析。但是，您仍然可以通过应用现代解释器的更多高级功能来使用它们(取决于正则表达式计算机)。例如。 .NET正则表达式使用堆栈；我找到了这个：

1	(?:.?)[""'].?>)(?<name>(?>(?<DEPTH>)\|(?<-DEPTH>)\|.)+)(?(DEPTH)(?!))(?:)

资料来源：http://weblogs.asp.net/scottcate/archive/2004/12/13/281955.aspx

请参阅StackOverflow的以下示例：用于解析网页链接的正则表达式？

使用HTML Agility Pack，您可以解析html，并使用HTML的语义(而不是损坏的正则表达式)提取详细信息。

我有一个可处理大多数情况的正则表达式，尽管我相信它确实与多行注释中的HTML匹配。

它使用.NET语法编写，但应易于翻译。

我发现了这一点，但显然这些家伙对此有一些问题。

编辑：(有效！)
我现在已经完成了自己的测试，发现它可以正常工作，我不知道C＃，所以我不能给您C＃答案，但是我确实知道PHP，这是从此运行它返回的matchs数组：

1
2
3

Text

array(3) { [0]=> string(52)"Text" [1]=> string(15)"pages/index.php" [2]=> string(4)"Text" }

这是一个匹配平衡标签的正则表达式。

(？？？？(>()|(< - 深度>)|)+)(？！(深度)())？：(？。？""[""] *>)(:)

现在，只要我能正常工作，就将它扔掉。..这是一个较不贪心的版本。如果输入具有多个超链接，则原始的行不通。下面的代码将允许您循环浏览所有超链接：

1
2
3
4
5
6
7
8

static Regex rHref = new Regex(@"[^""^']+[.]*?)[""'].*?>(?<keywords>[^<]+[.]*?)", RegexOptions.IgnoreCase | RegexOptions.Compiled);
public void ParseHyperlinks(string html)
{
MatchCollection mcHref = rHref.Matches(html);

foreach (Match m in mcHref)
AddKeywordLink(m.Groups["keywords"].Value, m.Groups["url"].Value);
}