抓取网页内容 - 注重长远天天积累 cqujsjcyj - ITeye博客

`

cqujsjcyj

浏览: 2015068 次
性别:
来自: 厦门

最近访客更多访客>>

hezhenhuam

tcrct

u012363178

myl3017

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

devwang_com：可以，学习了~~
列出文件夹下所有文件夹的树形结构--Dos命令 tree的使用
hvang1988：不管用啊 frxrprt1.PreviewForm.Pare ...
fastReport预览时嵌入到别的窗体
00915132：我也有这个疑问，非常感谢
left join加上where条件的困惑 --SQL优化
zhuyoulong：学习了，高效读书
软件架构师要读的书
nTalgar：非常感谢分享！
Application.ProcessMessages用法：

抓取网页内容

博客分类：

asp/asp.net学习

ASP.net .net 搜索引擎 ASP Blog

阅读更多

以下代码可以运行于asp.net上

抓取网页内容

转自：http://blog.csdn.net/zhujin1123/archive/2009/04/03/4020234.aspx

string http = TxtHttp.Text.ToString();//目标网页网址

   System.Net.WebRequest request = System.Net.WebRequest.Create(http);
   System.IO.StreamReader sr = new System.IO.StreamReader(request.GetResponse().GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
   ArrayList list = new ArrayList();
   if (sr != null)
   {
       string html = sr.ReadToEnd();
       // 关键是正则，要找到目标网页源码的规律，总结出正则的写法
       // 各个大的搜索引擎派出的搜索机器人就是通过这种方式来抓取网页快照
       System.Text.RegularExpressions.MatchCollection mc = System.Text.RegularExpressions.Regex.Matches(html, @"<a\s+href\s*=\s*[""|']?(?<uri>[^""' ]*)[""|']?[^<>]*>\s*(<[^<>]+>)*(?<title>[^<>]*)(<[^<>]+>)*\s*</a>");
       for (int i = 0; i < mc.Count; i++)
       {
           list.Add(mc[i].Value.ToString());//将找到的匹配的项添加到ArrayList
       }
       foreach (string str in list)
       {
           Response.Write(str + "<br/>");
       }
       sr.Close();
   }

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/zhujin1123/archive/2009/04/03/4020234.aspx

分享到：

了解开销情况--CLR Profiler | 自动生成方法各个参数说明---自动生成代码 ...

2010-05-19 22:51
浏览 895
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

抓取网站内容，获取网站内容，读取网站所有内容，抓取网页内容: 这个小例子实现了抓取网站内容，获取网站内容，读取网站所有内容，抓取网页内容，获取网页内容，读取网页所有内容，得到上次访问URL，得到请求的URL，很不错的喔！！！赶紧下啦。。

Java抓取网页内容三种方式: Java抓取网页内容三种方式

java简单的抓取网页内容的程序: java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

csharp仿爬虫抓取网页内容: csharp仿爬虫抓取网页内容，本项目以抓取招聘网站公司内容为例，里面的去内容的正则表达式需要定期更新，否则抓不到；里面还有每天检测是否能抓到，抓不到则说明网站有更新，需要修改

米云视频抓取插件一键获取网页内容视频源地址下载浏览器插件: 一键获取网页内容视频源地址下载浏览器插件，适合大部分浏览器可用插件获取下载格式： flv、hlv、f4v、mp4、mp3、wma、wav、m4a、letv、ts、webm、 ogg、ogv、acc、mov、mkv、m3u8 MIME类型：video/* audio/*...

C# 抓取网页内容帮助方法: C# 抓取网页内容帮助方法，能投通过标签自动匹配想要输出的内容

网页爬虫自动抓取网页内容: 自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容

http协议+socket获取网页内容源代码: http协议+socket获取网页内容源代码。

抓取网站内容: 抓取网站内容,我们通常说的小偷程序,有兴趣的下载看下！

JAVA通过url获取网页内容: JAVA通过url获取网页内容

模拟浏览器抓取网页内容（审查元素中内容）: 利用HtmlAgilityPack可以轻松获取网页内容，但是无法获取动态加载的内容，通过webBrowser模拟浏览器，获取网页内容。大致思路： 1、webBrowser加载网页（如有Ajax动态加载分页的网站，需要配合页面动作，直到页面...

java爬虫抓取网页内容，下载网站图片: java爬虫抓取网页内容，下载网站图片。抓取整个网站的图片，获取网页完整内容

java简单抓取网页内容: java抓取网页内容 ,简单实用,初学

C# 获取网页内容代码: C#抓取网站内容代码，可以获取各大网站的内容正文的信息。如：新闻网站，等有正文内容的网站。

.net_抓取网页内容类: .net_抓取网页内容类 net 抓取网页内容类载取网页,读取整个网页的类容,转换网页类容为图像

Android获取网页内容(HTTP): Android获取网页内容，利用GET方法请求图书馆查询输入框，解析返回的HTML代码，并将查询结果放入ListView之中显示。

C#获取网页内容: C#获取网页内容 C#提取网页中的超链接读取网页源码

C#抓取网页内容常用类: C#抓取网页内容常用类

C#抓取网页内容.pdf: C#抓取网页内容.pdf

c++获取网页指定内容: 抓取网页数据。修改网址可以抓取任何网页，对于初学者来说是个很好的工程。网页爬虫，可实现速度很快的信息爬取,提供源码。

Global site tag (gtag.js) - Google Analytics