|
发表于 2006-5-13 20:15:02
|
显示全部楼层
再来探讨一下
你的要求就是要先提取html文件中所有anchor中的href attribute的值,然后计数。
也就是像<a href="http://www.linuxsir.cn/">中的http://www.linuxsir.cn/,那是不是也包括<a href="../seamonkey.jpg">中的../seamonkey.jpg?还有可能是<a href=index.html#sec1>甚至<a href=#sec1>这样的fragment identifier,是不是也算?
难度还在于:
html的tag是大小写皆有可能的。
`a'元素后面不一定直接跟href attribute,像<a name="blah" href="url">也是有可能的。
html文件的格式比较松散,不是基于行的。
甚至还有可能碰到极不规范的html文件,比如href的值没加引号。 |
|