C# 提取网页的超链接

来源:百度知道 编辑:UC知道 时间:2024/05/24 01:05:02
<div id="pro_down">
<div class="topic"></div>
<div class="tit">日期</div>
<div class="tit">下载次数</div>
<div class="clear"></div>
<div class="cnt">
<ul>
<li class="pic"></li>
<li class="name"><a href="program_download-431.html" title="节目下载" target="_blank">2009.06.20</a></li>
<li class="num">84,640</li>
</ul>
<ul>
<li class="pic"></li>
<li class="name"><a href="program_download-461.html" title="节目下载" target="_blank">2009.09.27</a></li>
<li class="num">56,697</li>
</ul>
...

这是网页的源码的一部分,我想把那个超链接和日期和日期提取出来,然后放到checkedlistbox 或者其他的容器中...
linzhou0

使用正则表达式。
把所有以<a开头以</ a>结束的全都提取出来。
这样你可以得到一个集合。
然后再使用字符串的相关操作把这个集合的每个条目里面的对应的有用的信息提取出来。

遍历源文件:
使用HttpWebRequest和HttpWebResponse类。
这两个类可以帮你把某个URL标识的网页以流或者字符串的形式读到内存里面。
也就是说一张网页就是一个字符串。
这个字符串里面包含你所需要的信息。
你使用正则表达式和字符串操作就可以提取出来。

把名称和链接分成2列,添加到datatable中,然后用控件绑定就行了

还是用datagrid或gridview绑定吧,效果很好!

\<a\shref=["'](?<temp1>program_download-\d+\.html)["']\stitle=.*?target=\"_blank\"\>(?<temp2>\d{4}\.\d{2}\.\d+)\<\/a\>

${temp1}
${temp2}
希望对您有点用。