没写过,但是HTML要知道的吧,可以用StAX解析HTML,简单的java基础要的。别的不太清楚,正好看到核心技术2用StAX模拟的网络爬虫。大概就用了这么多知识。
我记得还得会正则表达式,好爬东西,你不如去网上找找视频,看看大致怎么做。。
必须要会正则表达式