求c#分析网页超链接代码

来源:百度知道 编辑:UC知道 时间:2024/05/25 02:05:25
从网站上抓取下来的网页代码中,有很多超链接,现在需要分析出来每个超链接的地址,求大侠给一个能解决的代码。

超链接有一定的规律。都是包含在相同的开始标记和结束标记之间

如网页源代码如下

<a href="xx.asp" title="XXX">bbbbbb</a>

<a href="mm.asp" title="XXX">cccccc</a>
<a href="xx.asp" title="XXX">bbbbbb</a>

<a href="mm.asp" title="XXX">cccccc</a>
现在要求提取出其中的网址,就像动易采集一样,设置一个链接开始标记,再设置一个结束标记,即可把所有超链接地址解析出来,希望高手解答
补充一下,我实际采下来的网址格式是这样的,就是说页面中有很多这样的链接,我现在就是要把所有的链接提出来,多谢
<A class=a01 href="hyjs-yx-new.jsp?recid=CN02114108.8&leixin=fmzl&title=悬架可拆装的半挂汽车列车及其使用方法&ipc=B60G11/02" target=_blank>02114108.8</A>

string pageCon = 网页内容;
Regex regex = new Regex(@"<a[\s\S]*href="(?<link>[^"]*)");
MatchCollection matchs = regex.Matches(pageCon);
for (int i = 0; (matchs.Count >0)&&(i < matchs.Count); i++)
{
GroupCollection matchGroups = matchs[i].Groups;
string link = matchGroups["link"].Value.Trim();
Console.writeline(link);
}

Regex.IsMatch("<a href=\"(.*)\".*?>","你的HTML");

如果你想取href中的地址。。用个正则就可以了

使用正则表达式啊

不给分就想解答?