Javascript Html Extractor v0.0.1
当前的版本是 v0.0.1。
项目地址:http://code.google.com/p/javascripthtmlextractor/
该内容提取器主要用于快速提取指定的html字符串中的指定内容。
如有发现问题或有建议,请留言,谢谢。
先看示例:
示例一:"<div><p>div1</p></div>".jhe_im("div")
返回:["<p>div1</p>"]
示例二:"<div id='attr_div1'>div1</div>".jhe_ma("div", "id")
返回: ["attr_div1"]
示例三:"<div><p>div1</p></div>".jhe_mt("div")
返回: ["div1"]
示例四:"<div>div1</div><div>div2</div>".jhe_om("div")
返回: ["<div>div2</div>", "<div>div2</div>"]
示例五:"<div>div1</div><div id='div2'>div2 content</div>".jhe_im("div", "@id=div2")
返回: 'div2 content'
示例六:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", "p")
返回:["div1", "div2"]
示例七:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", ">p")
返回: ["div1"]
示例八:"<p>11</p><div>div2</div>".jhe_im("^div")
返回: []
示例九:"<div>div2</div><p>11</p>".jhe_im("^div")
返回: ["div2"]
更多的示例可以看代码中的单元测试文件。
方法说明:
- jhe_im(匹配参数..)
该方法返回符合匹配参数的标签内的所有内容,返回值类型是数组。
- jhe_om(匹配参数..)
该方法返回符合匹配参数标签及其标签内的所有内容,返回值类型是数组。
- jhe_ma(匹配参数.., 属性名)
该方法返回符合匹配参数标签的指定属性的属性值,返回值类型是数组。
- jhe_mt(匹配参数..)
该方法返回符合匹配参数的标签下的所有文本内容, 返回值类型是数组。
- 关于匹配参数,匹配参数是个不定长的参数,他可以为以下内容
html标签: 如 'div', 'a'...,表示为需要匹配的标签名称
属性表达式:
@attributeName=attributeValue, 如 '@class=red', '@id=container',表示需要匹配的标签的属性必须符合指定条件
属性表达式:
@@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*',表示需要匹配的标签的属性必须符合指定的正则式条件
^+html标签:,表示当前html字符串的第一个标签
>+html标签
:
,表示紧接前一标签的下一标签
分享到:
相关推荐
它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。本课程由浅入深,从六部分讲解JavaScript...
RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/CompareCheck.aspx 数据类型检查 ASPNETValidator/CompareValue...
WebPlotDigitizer - 基于HTML5的在线工具从绘图图像中提取数字数据
4.5 让多个链接触发一个翻转器 68 4.6 处理多个翻转器 71 4.7 创建循环的广告条 74 4.8 在循环广告条中添加链接 76 4.9 建立循环式幻灯片 78 4.10 显示随机图像 80 4.11 随机开始循环显示图像 81 第5...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
当前,以下功能不在该项目的范围内: HTML> TW5> HTML的往返转换为TW5实施替代编辑器-这可能是一个长期目标,但在实现TW5必须提供的特殊宏和小部件方面严重不足。依存关系该项目当前依赖于其他两个基于JavaScript的...
JSoup:一个基于Java的JavaScript解析器,可以用于解析HTML文档。 WebMagic:一个开源的爬虫框架,提供了一些高级特性,如自动化抽取和数据抽取。 5.crawler4j:一个开源的爬虫框架,提供了一些基本功能,如多线程...
源文件程序天下JAVASCRIPT实例自学手册 第1章 JavaScript语言概述 1.1 JavaScript是什么 1.1.1 JavaScript简史 1.1.2 JavaScript有何特点 1.2 JavaScript能做什么 1.2.1 表单数据合法性验证 1.2.2 页面特效 1.2.3 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
16_3.htm 加载一个文本文件到一个HTML元素中。 16_4.htm 使用XML HTTP载入一个XML文件。 16_5.htm 通过XML HTTP做一个HEAD的请求。 16_6.htm 通过XML HTTP做一个特殊HEAD的请求。 16_7.htm 显示XML数据...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...
2、由于低版本IE不支持HTML5和CSS3技术,对于部分HTML5模板在IE6、7、8错位问题,请使用360/搜狗浏览器极速模式、Chrome谷歌浏览器、IE9+,FireFox浏览器等查看。 3、不会修改得可以参考此教程进行学习 ...