回顾: 实施谷歌搜寻装置在内部网环境里
我们的公司内部网是与莲花多米诺和IIS的一个非被构筑的环境(。净和经典ASP)应用和内容。 我们有在网络内容之间300,000-500,000页,并且文件横跨超过1200年“在大约30个独特的领域选址”。 我们曾经有Inktomi的UltraSeek服务器3.0作为在1998开始看起来象它的年龄的我们的内部网搜索引擎(购买)。 没有很好处理附件(DOC、PPT、PDF等等),不会爬行我们的安全站点和供营商不再支持Inktomi产品。 我们做了查寻供营商的粗略回顾和立刻被吸引了对他们的谷歌查寻装置的(GSA)谷歌的30天试验提议。 在签署一个标准协议以后,他们运输了我们我们可能测试30天在返回或购买之前的一个全新的发光的黄色单位。
产品信息
GSA是“黑匣子” 1U标准机架可登上的服务器。 由“”我意味的黑匣子,谷歌给您网接口执行设备,但是不要您访问操作系统(Linux的一个谷歌沉重定制的版本)。 实际上,使用协定规定您在任何情况下不会窜改装置的硬件或OS。 设备没有需要对于键盘、老鼠或者录影? 您为正常运行需要的所有是网络缆绳和标准功率输入。
GSA进来不同的味道适合变化由硬件的执照的大小和相应地大小的不同的需要。 (准许根据URL的数量由装置爬行了。) 有3不同硬件构造; GB-1001、GB-5005和GB-800。 这些如下被划分;
GB-1001 ? 150K $28K的文件, 300K $50K的文件 GB-5005 ? $230K的1.5M文件 GB-8008 ? $450K的4M文件
为什么谷歌?
如做广告, GSA适应所有我们的需要能标注我们有在我们的环境文件类型,通入被巩固的内容的大品种,有被提供的API等等。 谷歌品牌力量是另一个大销售的因素。 当我们告诉了我们的用户他们打算得到一个基于谷歌的搜索引擎他们知道他们的天混乱的搜寻结束。 最后,我们有与被密封成交的GSA的30天试航经验。 装置是我必须安装,配置和维护的最容易的企业解答。 我们在1小时逐字地是在运作的打开之内运送箱。
设施
装置有在后板的二个网络端口; 一正常运行的和用于网络布局完全的其他。 要配置网络设置我们连接一台膝上型计算机到装置通过是包括的一个特别(有些别针出口是非标准的)橙色以太网电缆。 安装过程是一样容易,象一个人可能为“黑匣子想象”。
首先我们接通正常运行网络缆绳然后力量。 在装置上的电源插头是电源开关; 接通它打开和拔去它关闭它。 在接通它以后,我们等大约5分钟装置播放是信号继续的声调。 其次,我们联接我们的膝上型计算机(已经被设置对DHCP方式)对装置和加电它。 在登录对我们的膝上型计算机和保证以后我们安排正确IP分配由我们准备配置网络设置的装置的固定DHCP服务器。 总共用的时间(除了机架安装) : 10分钟。
配置
网络布局,象正常管理,通过浏览器完全地完成并且是一个简单的5步过程。 第一个屏幕要求您对于基本的网络信息; IP地址、子网掩码、默认网关和域名服务器。 随后屏幕收集SMTP服务器, “从” GSA通知消息的地址、时区、NTP (时间)服务器和admin帐目名或者密码。 最后步将测试您爬行保证您恰当地做了设定的一些个URL。 在一种最后的设置回顾屏幕配置是完全的,并且之后您能然后拔去您的膝上型计算机和有好部分; 开始爬行。 共计共用的时间: 10分钟。
爬行站点
使用URL提供了, GSA的所有管理遥远地做。 在登录与我们在早先步提供的ID/password以后,我们提出了与管理控制台。 我们创造新的收藏举行我们的索引,投入在爬行从” URL的“开始,被复制同样URL到里“跟随并且爬行与以下样式”箱子的仅URL,并且我们做了。 我们保存了我们的设置然后点击了“起动爬行的”按钮。 我们然后转向“爬行状态”屏幕并且观看了“爬行的URL”逆增量。 谷歌做广告它在大约15分钟之内可能爬行大约4,000个URL。 我们发现爬行时间将极大增加,如果有与从那些URL (词、PDF、Excel等等)连接的文件。
在爬行完成之后自动地标注汇集然后检查反对服务前提(所有标准您是否希望使用确定移动被标注的收藏向生产)和汇集将被移动向生产(和因而搜查)或被移动向分级法。 集结地让您在让用户搜索之前确认新的爬行反对他们。
爬行的配置
在您的第一爬行以后您可以发现需要回去和扭捏爬行的参量。 谷歌给您适量对站点怎样的控制爬行,频率,使用多少条螺纹等等。 为站点以安全, GSA支持基本验证,并且支持形式认证的一个另外的安全模块是可利用的。 我们的最富挑战性的配置方面确定URL样式的正确组合从查寻排除。 如果您是多米诺商店和看使用GSA您可能需要花费得到履带牵引装置配置的不少时间支持有时复杂的多米诺询问串参量。
在我们得到了爬行参量调整,并且之后完成的第一完全爬行我们做某一测试看履带牵引装置是否劫掠了所有内容。 浏览我们的站点和测试与一些串埋没了深在我们总是发现的分类学里面GSA准确地爬行了他们。 我们也做了与串的某一测试在PDF文件, PowerPoint介绍里面等等。 当我们遇到了未爬行仔细的分析的事带领我们发现我们需要做有些扭捏爬行设置。
其他显着的特点
谷歌也给您允许您指定的一个KeyMatch工具哪些标注了文件应该出现在一次特定询问的结果页顶部。 这些明显他们自己几乎相同地与由主办的链接在我们全部使用谷歌的结果页顶部。 同义词工具允许您为查寻询问指定供选择词或词组。 例如,如果某人搜寻WCM,您能建议“网络内容管理”在结果页顶部。
产品格式特点让您控制(通过XSLT)查寻结果的介绍。 您能为改变结果页的字体、颜色、商标、倒栽跳水等等使用此。 我们能容易地去除在结果页的“被贮藏的”特点与某一XSLT修改。
报告工具让您跑关于查寻询问的报告在各种各样的时间范围。 它将显示您查寻的数量每天的,每小时、名列前茅100个主题词和指定的时期的名列前茅100询问。
下降趋势
GSA不是为看的组织标注他们的共享网络驱动,因为装置没有爬行的文件系统的设施。 这是真正地太坏的许多家公司与在他们的网络奋斗存放的无特定结构的内容的巨大的数量。 当然,有多血症其他产品那里为正确地这个问题。
通入直接地对数据库(即SQL、Oracle等等)是为GSA是禁地并且任何与内容或文件管理系统的综合化的另一个区域。
结论
谷歌查寻装置(GSA)是HTTP容易接近的内容的一个优秀查寻产品。 它给对行政特点的巨大控制例如履带牵引装置服务的配置和的结果和足够的报告能力。 寻找解答集成直接地与内容或文件管理系统,数据库或者标注网络驱动器的那些应该看到另一个产品。 然而,如果您有有大量的一个内部网或内部网站点基于HTML的内容GSA也许是什么您需要。
布赖恩Mjaanes是
Intranet101.com创作者或编辑,为内部网专家的一个community-based论坛。
文章来源: Messaggiamo.Com
Related:
» Home Made Power Plant
» Singorama
» Criminal Check
» Home Made Energy
网管得到HTML代码
加上这条到你的网站!
网站管理员提交你的文章
无须登记!填写好的表格和你的文章是在 Messaggiamo.Com 目录!