怎么用正则表达式提取HTML中所需的文字

来源:百度知道 编辑:UC知道 时间:2024/09/21 23:21:44
在HTML中有好多文字掺在HTML标记中
例如
<p>
1.asdfasdfasdfasdf
<br>2.asdfasdfasdfsadf
<br>3.asdfasdfsadfasdf
<br>4.asdfasdfsadf
</p>
怎么把 1.2.3.4和他们后边的文本用正则表达式取出来啊
看下边的一段HTML
<td>
<p align="left" style="line-height:150%"><strong>职位描述:</strong><br>
职责:<br>1、分析网站用户需求,撰写产品设计文档。<br>2、指导协调技术人员开发,控制开发过程。<br>3、参与策划产品的营运、推广方案和执行,不断优化产品。<br><br>要求:<br>1、较好的互联网软件技术基础,能够撰写文档,熟悉电子商务行业。<br>2、深刻理解用户价值、用户需求,有网站产品运作经验。<br>3、此为高级职位,经验不足者请勿投。<br>4、有意者请简要说明你做过的网站产品或对于产品设计的理解。</p>
</td>
我想在整个HTML文件中把以上一段里的文本给提取出来

replace(str,"<br>",vbcrlf) 'vbcrlf=#13#10
replace(str,"<p>","")
replace(str,"</p>","")
===================================
1.([\s\S]+)2.([\s\S]+)3.([\s\S]+)4.([\s\S]+)
===================================
给详细点,因为不同的限制,正则表达式的写法也不完全一样
===================================
这段要整体匹配提取出来然后,把其中的<br>替换掉就可以了

Dim regEx, mh, mhs '建立变量
Set regEx = New RegExp '建立正则表达式
regEx.IgnoreCase = False '设置是否区分字符大小写
regEx.Global = True '设置全局可用性
regEx.Pattern = <p[\s\S]{1,64}职位描述:[\s\S]{1,32}(职责:[\s\S]{1,512}要求:[\s\S]{1,512})</p>"
Set mhs = regEx.Execute(innerHTML) '执行搜索
If mhs.Count>0 Then
Text1 = Replace(CStr(mhs.Item(0).SubMatches(0)),"<br>",vbcrlf)
End If
=========================================
演示