复杂的方法就是自己用java的相关类来模拟浏览器下载网页页面,然后使用DOM等技术从下载的网页中获取自己需要的内容。不过强烈建议你使用HttpClient和HttpParse框架来方便地实现网络爬虫功能。其中HttpClient框架主要实现从WEB服务器下载网页数据,功能极其强大。而HttpParse框架则是从网页文件中获取不同标签的内容,功能也很强大,而且使用十分方便,强烈推荐。
apache上有个lucence项目,是开源的搜索引擎。 你可以下载一份源代码。 中国还有一个中文网站,还有像lucence in action 这本书到处都可以下载 估计 www.xunlei.com上就有