WinForm解析网页抽取信息的正则

来源:百度知道 编辑:UC知道 时间:2024/06/17 23:44:06
要解析的网址:http://list.china.alibaba.com/buyer/companylist/1036634.html
提取对象:公司名称,名称的连接URL,简介,主营,工商注册年份,注册资本。
要求:每列用||隔开,每行用**隔开,最好有详细注释,本人正则刚接触,想学习下

\<span\sclass=\"m\sundline\"\>\<a\shref=\"(?<URL>.*?)\"\s*onmousedown[\w\W]*?target=\"_blank\"\sclass=.*?\>(?<TITLE>.*?)\<\/a\>\<\/span\>[\w\W]*?\<span\sclass=\"gray\ss\"\>(?<CONT>[\w\W]*?)\<\/span\>[\w\W]*?\<span\sclass=\"gray\ss\"\>(?<IN>.*?)\<\/span\>[\w\W]*?\<span\stitle=\".*?\"\>\[(?<DF>.*?)\]\<\/span\>[\w\W]*?\;\"\s\>(?<RMB>.*?)\<\/a\>[\w\W]*?\;\"\s\>(?<YEAR>\d+)\<\/a\>

${URL},${TITLE},${CONT},${IN},${DF},${RMB},${YEAR} 这些变量在编程中你想变成什么格式都行。时间紧,匹配的严密性您可以再查下。