收藏
已收藏
¥{[getMoney(20000)]}~{[getMoney(50000)]}
预算
10
天计划工期
收藏
已收藏
¥{[getMoney(20000)]}~{[getMoney(50000)]}
预算
10
天计划工期
{[ job.pattern_id != 9 ? '项目详情' : '职位详情']}
您好我想做一个搜索器总目标:制作一个小型搜索器,实现能够完成上述初步查询20000个生物品种的查询、筛选、整理工作。
搜索器的主要要求:
1、可以在至少200个网站(例如维基百科但是目前网站名单不全只能提供10个左右,有很多是外网网址,我们公司在国内,自己有VPN没有服务器)按照指定的关键词或者字符(关键词由我方制定并且数量不限)进行搜索,搜索的层级不低于10层。指定的网站和关键词,可以主动由我方编辑查询人员自由设置。
2、可以在公共平台类似谷歌搜索这种搜索到相关信息后进行二次搜索,二次搜索的网站需要避开第一次已经搜索过的网站防止信息反复收集浪费时间。
3、搜索到网站后,能初步分析和判断,按关键字将内容进行归类;(按精确匹配或模糊匹配分),需要搜索某种产品的物化性质、结构式、应用、生产经营企业信息等,就要进行分析,进入下一层(有可能再进入下一层),把相关的所有信息全部保存下来。
4、可以按照我方要求,主动设置文件夹、word文件格式,并整理文件资料、存储独立文件,如照片、PDF文件和其它独立格式文件,保存的word文件需要自行筛选掉重复信息。
5、一周内可以达成6000个生物品种的查询筛选整理工作。
6.、从网站下载的信息需要是以word文件的格式下载保存,主要保存网站页面的文字信息。
7、在不同网站下载的同一品种资料可以统一横向对比筛选出不同的信息,主要查看的是植物、香料、香薰类的资料。
8、最终的目的是把不同网站的内容关于某一个品种的内容进行横向总结对比,把各个网站关于这个品种的内容收集到一个word文件里总结,并且筛选出其中不同的信息。
9、比较理想的情况是可以做一个独立的软件,但是如果比较难实现可以做成浏览器的插件或者拓展,只要能达到前面提到的收集资料的要求即可。
工期最多不能超过15天,需要您这边提供发票因为我们不能偷税漏税。您看能做吗?
{[modal.content]}