審查:執行谷歌搜索設備在Intranet環境
我們的企業內部網是一個非框架的環境,Lotus Domino和IIS的(。Net和傳統ASP)應用程序和內容。我們之間的30-50頁的網頁內容和文件在超過1200 “用地”的約30個獨特的領域。我們曾經有Inktomi公司的Ultraseek的服務器3.0作為我們的Intranet搜索引擎已開始看起來像它的年齡(1998年購買)。該產品沒有了Inktomi 不處理好附件(文件操作,PPT,PDF等),不會抓取我們的安全地點,並不再支持由供應商。我們做了粗略審查搜索供應商,並立即吸引谷歌的 30天試用谷歌提供的搜索設備(GSA)的。經過簽署標準協議,他們已發運我們一個嶄新的黃色光澤單位,我們可以測試30天,然後返回或purchasing.Product Infothe公司GSA的是一個“黑匣子”1U標準機架式服務器。通過“黑匣子”我的意思是,谷歌給你一個網絡界面來管理設備,但不希望你們訪問操作系統(1 大量谷歌定制的Linux版本)。事實上,該許可協議規定,你不會干擾的硬件或操作系統的設備以任何方式。該器件無需使用鍵盤,鼠標或視頻 ?所有您需要的正常運作是網絡電纜和標準的權力input.The GSA的來自不同的口味,以適應不同的需要按大小不同的硬件和相應規模的許可證。 (牌照是根據抓取的網址數量的設備。)有3種不同的硬件配置,在GB - 1001的GB - 5005和GB - 800。這些都是細分如下; GB - 1001上? 15萬美元的過敏蛋白的文件, 300K的文件,為5萬美元的GB - 5005? 150萬份文件$ 23萬GB的- 8008? 4分證件$ 450K為什麼谷歌?像廣告,人員協會滿足了所有我們需要能夠索引種類繁多的文件類型,我們對 環境,獲得保護的內容,有一個文件的API,谷歌等品牌影響力的賣點是另一個因素。當我們告訴我們的用戶,他們將獲得谷歌的搜索引擎,他們知道自己 天陷入困境的搜索已經結束。最後,30天的試運行經驗,我們已與GSA的敲定。該設備是最簡單的企業解決方案,我從未有過的安裝,配置和維護。我們 ,簡直和運行在一個小時內開放航運box.InstallationThe設備有兩個網絡端口,後面板上,一個正常運作和其他專門用於網絡 配置。要配置網絡設置,我們一台筆記本電腦連接到設備通過一個特殊的(一些引腳輸出是非標準)橙色以太網電纜包括在內。在安裝過程一樣簡單 因為人們可以設想一個“黑盒子。”首先,我們插入的正常運作網絡電纜,然後的權力。電源插頭的專用設備是電源開關,插上電源,打開和把它拔掉 它關閉。它在插入之後,我們等了大約5分鐘的設備發揮調整這是信號繼續。下一步,我們鉤我們的筆記型電腦(已設置為DHCP模式)的設備和供電它。 登錄後,在我們的筆記本電腦,並確保我們有正確的IP分配給該設備內置的DHCP服務器,我們準備配置網絡設置。總運行時間(不包括機架安裝):10 minutes.ConfigurationNetwork配置,像普通的管理,做完全通過瀏覽器,是一個簡單的5個步驟。第一個屏幕向您要求基本的網絡信息,IP地址,子網 掩碼,默認網關和DNS。隨後屏幕收集SMTP服務器,“發件人”地址GSA的通知郵件,時區的NTP(時間)服務器和管理員帳戶名/密碼。最後一步是 測試幾個網址,你會爬行,以確保您做了正確的設置。經過最後的設置審查屏幕配置已經完成,你就可以拔掉你的筆記本電腦,站到相當一部分; 開始爬行。總時間:10 minutes.Crawling網站(s)上提供的網址,所有管理人員協會遠程完成。登錄後,與ID /密碼,我們提供了一個步驟,我們 頒發管理控制台。我們創建了一個新的集合來保存我們的索引,將在“開始檢索到”網址,複製的同一網址為“只跟踪和抓取的網址 下列模式“框中,我們這樣做。我們救了我們的設置,然後點擊”開始抓取“按鈕。然後,我們走到了”抓取狀態“屏幕,觀看”抓取 網址“計數器的增加。谷歌做廣告,它可以抓取的網址約4000約15分鐘左右。我們發現,檢索時間將大為增加,如果有文件(Word,PDF格式,Excel等)掛鉤 從這些URLS.After檢索收集完成自動檢查索引,然後對服務的先決條件(任何標準您想使用,以決定是否將一個索引集合 生產),並收集要么轉移到生產(因而搜索),或移動到分期。臨時區域,您可以驗證新的檢索之前,讓用戶進行搜索them.Crawling configurationAfter你的第一個抓取您可能會發現需要回去和調整的爬行參數。谷歌為您提供了一個很好的數額控制網站是如何抓取,頻率,有多少線程, 等對於網站的安全性,GSA的支持基本身份驗證和其他安全模塊可它支持表單身份驗證。最具挑戰性的配置方面,我們的決定 正確的組合模式的URL排除在搜尋。如果你是一個多米諾店,面向使用GSA的您可能需要花一些時間讓抓取工具配置正好支持 有時令人費解的多米諾查詢字符串parameters.After我們得到了調整和檢索參數的第一個完整的檢索工作,我們做了一些測試,看看履帶抓住所有內容。瀏覽我們的網站和 一些字符串測試埋藏內心深處的分類,我們總是發現他們爬了GSA的準確。我們也做了一些測試字符串內PDF文件,PowerPoint演示等。當我們 的確碰到事情尚未抓取仔細分析使我們發現,我們需要做一些調整抓取的settings.Other顯著featuresGoogle還為您提供了關鍵字匹配工具, 允許您指定的索引文件應該出現在頂部結果頁給定的查詢。這些表現出來,幾乎相同的贊助商鏈接頂部結果頁 谷歌,我們都使用。一個同義詞工具允許你指定替代的單詞或短語的搜索查詢。例如,如果用戶搜索的WCM,您可以建議“網頁內容管理”的頂部 結果page.An輸出格式功能,您可以控制(通過一個XSLT)向本會提交的搜索結果。你可以使用這個改變字體,顏色,標誌,標頭,等的結果頁。我們能夠 輕鬆刪除“網頁快照”功能,在結果頁上一些樣式modifications.The報告工具,您可以運行搜索查詢報告在不同的時間範圍。它會告訴你有多少搜索 每天,每小時,前100個關鍵字和最高100個查詢的時間段specified.DownsidesThe GSA的組織,是不希望指數的共享網絡驅動器的設備沒有設備的 抓取文件系統。這實在是太糟糕了許多公司都在努力與大量的非結構化內容存儲在他們的網絡。當然,還有太多的其他產品,而為 正是這一issue.Access直接到數據庫(例如SQL,Oracle等)是另一項主要是禁區的GSA的,以及任何類型的整合內容或文檔管理systems.ConclusionThe 谷歌搜索設備(GSA)的是一個出色的搜索產品,為HTTP的訪問的內容。它給偉大的控制管理功能,如履帶式配置和服務和充分的結果報告 能力,以及。那些尋找一個解決方案,集成直接與內容/文件管理系統,數據庫,網絡驅動器或索引應該尋求另一種產品。不過,如果你有一個內部網 或Intranet站點,用大量的基於HTML的內容GSA的可能正是你need.Bryan Mjaanes是創作者/編輯的Intranet101.com,以社區為基礎的專業論壇內聯網。
文章來源: Messaggiamo.Com
Related:
» Home Made Power Plant
» Singorama
» Criminal Check
» Home Made Energy
網管得到HTML代碼
加上這條到你的網站!
網站管理員提交你的文章
無須登記!填寫好的表格和你的文章是在 Messaggiamo.Com 目錄!
版權 2006-2011 Messaggiamo.Com -
網站地圖 -
Privacy -
網站管理員提交你的文章,以 Messaggiamo.Com 目錄 [0.01]