开发出的程序可以对指定的网站进行批量站内检索,并将检索结果页面保存为网页截图,关键点如下:
- 不需要提取或处理任何网页信息,仅需要在特定网页中自动定位到搜索框,并在搜索框内键入关键词并搜索(如截图实例第1页),然后将搜索结果页面保存为pdf截图,截图中应包括截图时间、完整网址,其效果同浏览器自带的“Control+P”导出pdf文档,页面保存应完整;
- 如果该网页不存在搜索框,或存在难以克服的防机器人设计,则改用百度站内搜索语句,并对百度站内搜索结果截图,最多保存五页;
- 程序的输入信息包括关键词列表,及各关键词对应需要检索的网页列表,输入方式为excel;
- 程序的输出内容包括:
- (1)检索统计表,即在输入的excel上增加检索结果“站内截图”、“百度截图(站内无搜索框)”、“百度截图(防机器人)”;(2)全部网页截图,截图以特定规则命名(该规则包括关键词名称+网页的中文代称,该中文代称也会在前项excel里载明);
- 交互界面实现上述功能,简洁易用即可,并可选择截图保存位置;
- 单次检索涉及数量可能达数百,甚至数千,程序运行应稳定,运行时不必使用浏览器显示过程,后台运行即可,需在尽量短的时间内完成;
- 项目完成后可能继续合作,持续升级程序;
- 更多细节可具体联系。
- 能用尽量精简的代码完成开发任务,Python优先