java 如何利用正则表达式只保留html里面的<p></p>标签里面的内容

来源:百度知道 编辑:UC知道 时间:2024/05/25 13:55:59
java 如何利用正则表达式只保留html里面的<p></p>标签里面的内容

我们都知道html里面<p></p>里面就是正文内容,但是有时候也会有标签属性
例如:

<p style="font-size:1.3em;font-weight:bold">No page with that title exists.</p>

但是输出只要 No page with that tittle \n 也就是每个标签内容末尾要加个换行符,请问如何做?
我是想把html的正文内容保存成文本,并简单排版一下

正则表达式:<p.*?>(.*?)</p>
group(1)为正文内容。
输出时加上\n就行了

import java.util.regex.*;
public class Test{
public static void main(String[] args){
String str="<p style=\"font-size:1.3em;font-weight:bold\">No page with that title exists.</p> ";
String regex="<p.*?>(.*?)</p> ";
Pattern p =Pattern.compile(regex);
Matcher m=p.matcher(str);
while(m.find()){
System.out.println(m.group(1));
}
}
}

其实没太看懂你的意思。
你想换行,直接用<br>就行了。

刚我也问了这个问题
原理一样的 改下语法就可以了 应该..其实我还是没成功 在找答案中..
http://zhidao.baidu.com/question/77876219.html

就是替换掉 <p * > 然后再把 </p>替换成<br/>
这样子.