socket下载网页时网络阻塞

来源:百度知道 编辑:UC知道 时间:2024/06/15 12:57:14
我用socket写了个小程序,用来下载一个网页的HTML文件,connect和connect以前都没有问题,当recv的返回值是0的时候,就显示下载完毕.
我用它来下mail.163.com的HTML的时候,什么问题也没有,但如果用来下zhidao.baidu.com的HTML的时候,明明整个HTML都下载下来了,可它却不马上显示下载完毕,停在recv(),要过一些时间才显示下载完毕.
哪位大虾给解释一下啊.它在停下的这一些时间里做什么,以及怎么避免这种情况发生.没时间大体给分析一下也可以啊.

这个问题涉及到HTTP协议。

估计zhidao默认是以KeepAlive的方式处理HTTP请求的,就是说服务器端会保持连接一段时间,以便重新利用该连接接受新的HTTP请求。

解决的办法是
1. 发送HTTP请求的时候主动要求不使用KeepAlive;
2. 或者对服务器返回的内容做分析,根据返回的头部信息能够知道数据的长度或者数据块的大小和数目(如果是以Transfer-Encoding: chunked的方式返回),这样就能确定是否已经接受了所有的数据,然后进行主动close().

另外补充一下: 自己写socket程序下载网页会涉及到很多问题,比如有些服务器是把数据压缩后返回的,比如google的有些服务,你还需要对它进行解压还原。
因此,建议使用一些已有的库进行开发会比较方便一点,推荐使用libcurl来处理HTTP/FTP。