以下代码可以运行于asp.net上
抓取网页内容
转自:http://blog.csdn.net/zhujin1123/archive/2009/04/03/4020234.aspx
string http = TxtHttp.Text.ToString();//目标网页网址
System.Net.WebRequest request = System.Net.WebRequest.Create(http);
System.IO.StreamReader sr = new System.IO.StreamReader(request.GetResponse().GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
ArrayList list = new ArrayList();
if (sr != null)
{
string html = sr.ReadToEnd();
// 关键是正则,要找到目标网页源码的规律,总结出正则的写法
// 各个大的搜索引擎派出的搜索机器人就是通过这种方式来抓取网页快照
System.Text.RegularExpressions.MatchCollection mc = System.Text.RegularExpressions.Regex.Matches(html, @"<a\s+href\s*=\s*[""|']?(?<uri>[^""' ]*)[""|']?[^<>]*>\s*(<[^<>]+>)*(?<title>[^<>]*)(<[^<>]+>)*\s*</a>");
for (int i = 0; i < mc.Count; i++)
{
list.Add(mc[i].Value.ToString());//将找到的匹配的项添加到ArrayList
}
foreach (string str in list)
{
Response.Write(str + "<br/>");
}
sr.Close();
}
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/zhujin1123/archive/2009/04/03/4020234.aspx
分享到:
相关推荐
这个小例子实现了抓取网站内容,获取网站内容,读取网站所有内容,抓取网页内容,获取网页内容,读取网页所有内容,得到上次访问URL,得到请求的URL,很不错的喔!!! 赶紧下啦。。
Java抓取网页内容三种方式
java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...
csharp仿爬虫抓取网页内容,本项目以抓取招聘网站公司内容为例,里面的去内容的正则表达式需要定期更新,否则抓不到;里面还有每天检测是否能抓到,抓不到则说明网站有更新,需要修改
一键获取网页内容视频源地址下载 浏览器插件,适合大部分浏览器可用 插件获取下载格式: flv、hlv、f4v、mp4、mp3、wma、wav、m4a、letv、ts、webm、 ogg、ogv、acc、mov、mkv、m3u8 MIME类型:video/* audio/*...
C# 抓取网页内容帮助方法,能投通过标签自动匹配想要输出的内容
自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容
http协议+socket获取网页内容源代码。
抓取网站内容,我们通常说的小偷程序,有兴趣的下载看下!
JAVA通过url获取网页内容
利用HtmlAgilityPack可以轻松获取网页内容,但是无法获取动态加载的内容, 通过webBrowser模拟浏览器,获取网页内容。 大致思路: 1、webBrowser加载网页 (如有Ajax动态加载分页的网站,需要配合页面动作,直到页面...
java爬虫抓取网页内容,下载网站图片。抓取整个网站的图片,获取网页完整内容
java抓取网页内容 ,简单实用,初学
C#抓取网站内容代码,可以获取各大网站的内容正文的信息。如:新闻网站,等有正文内容的网站。
.net_抓取网页内容类 net 抓取网页内容类 载取网页,读取整个网页的类容,转换网页类容为图像
Android获取网页内容,利用GET方法请求图书馆查询输入框,解析返回的HTML代码,并将查询结果放入ListView之中显示。
C#获取网页内容 C#提取网页中的超链接 读取网页源码
C#抓取网页内容常用类
C#抓取网页内容.pdf
抓取网页数据。修改网址可以抓取任何网页,对于初学者来说是个很好的工程。网页爬虫,可实现速度很快的信息爬取,提供源码。