八爪魚(yú)采集器是一個(gè)專業(yè)的網(wǎng)絡(luò)數(shù)據(jù)采集工具,擁有智能化數(shù)據(jù)抓取技術(shù),可以實(shí)現(xiàn)多平臺(tái)多格式數(shù)據(jù)的精準(zhǔn)采集,支持采集新聞資訊、電商商品、社交媒體、企業(yè)黃頁(yè)等不同類型網(wǎng)站數(shù)據(jù)。還具備智能識(shí)別技術(shù),可自動(dòng)識(shí)別文本、圖片、表格、鏈接等數(shù)據(jù)類型。支持正則表達(dá)式、XPath、CSS選擇器等多種提取規(guī)則設(shè)置,滿足復(fù)雜數(shù)據(jù)抓取需求。
八爪魚(yú)采集器采集單個(gè)網(wǎng)頁(yè)步驟
1、啟動(dòng)八爪魚(yú)采集器,點(diǎn)擊快速開(kāi)始,選擇新建任務(wù)進(jìn)入任務(wù)配置頁(yè)面。
2、設(shè)置任務(wù)組,自定義任務(wù)名稱與備注。
3、完成上述配置后,點(diǎn)擊下一步進(jìn)入流程配置頁(yè)面,將打開(kāi)網(wǎng)頁(yè)步驟拖入流程設(shè)計(jì)器。
4、選中瀏覽器中的打開(kāi)網(wǎng)頁(yè)步驟,在右側(cè)頁(yè)面URL欄輸入目標(biāo)網(wǎng)址后點(diǎn)擊保存,系統(tǒng)將在下方瀏覽器中自動(dòng)打開(kāi)對(duì)應(yīng)網(wǎng)頁(yè)。
5、進(jìn)行數(shù)據(jù)字段提取,點(diǎn)擊瀏覽器中需要抓取的字段,在彈出對(duì)話框中選擇抓取該元素的文本。
6、系統(tǒng)將在頁(yè)面右上方顯示已選擇的待抓取字段。
7、繼續(xù)配置頁(yè)面中其他需要抓取的字段,完成配置后修改字段名稱。
8、點(diǎn)擊保存按鈕,打開(kāi)數(shù)據(jù)字段界面查看最終采集列表。
9、點(diǎn)擊下一步兩次,選擇啟動(dòng)單機(jī)采集(調(diào)試模式)進(jìn)入任務(wù)檢查頁(yè)面。
10、點(diǎn)擊開(kāi)始單機(jī)采集,系統(tǒng)將在本地執(zhí)行采集流程并顯示最終結(jié)果。
八爪魚(yú)采集器功能
1、精確采集金融數(shù)據(jù),包括季報(bào)、年報(bào)、財(cái)務(wù)報(bào)告,支持每日最新凈值自動(dòng)獲取。
2、實(shí)時(shí)監(jiān)控新聞門(mén)戶網(wǎng)站,自動(dòng)更新并上傳最新發(fā)布的新聞內(nèi)容。
3、追蹤競(jìng)爭(zhēng)對(duì)手動(dòng)態(tài),包括商品價(jià)格及庫(kù)存變化信息。
4、抓取社交媒體和博客內(nèi)容,自動(dòng)收集企業(yè)產(chǎn)品相關(guān)評(píng)論數(shù)據(jù)。
5、系統(tǒng)化采集職場(chǎng)招聘信息,覆蓋各大招聘平臺(tái)。
6、監(jiān)控房地產(chǎn)網(wǎng)站,采集新房和二手房最新行情數(shù)據(jù)。
7、獲取各大汽車(chē)網(wǎng)站的新車(chē)和二手車(chē)詳細(xì)信息。
8、發(fā)現(xiàn)并收集潛在客戶信息,支持多渠道數(shù)據(jù)獲取。
9、采集行業(yè)網(wǎng)站的產(chǎn)品目錄和詳細(xì)產(chǎn)品信息。
10、實(shí)現(xiàn)電商平臺(tái)商品信息同步,支持跨平臺(tái)自動(dòng)更新。
八爪魚(yú)采集器特色
1、模板采集
內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源模板,如京東、天貓、大眾點(diǎn)評(píng)等,通過(guò)簡(jiǎn)單設(shè)置參數(shù)即可快速獲取公開(kāi)數(shù)據(jù)。
2、智能采集
提供多種網(wǎng)頁(yè)采集策略,支持自定義配置,實(shí)現(xiàn)數(shù)據(jù)完整性和穩(wěn)定性。
3、云采集
依托5000多臺(tái)云服務(wù)器,實(shí)現(xiàn)7 * 24小時(shí)不間斷運(yùn)行,支持定時(shí)采集任務(wù),提升效率并保障數(shù)據(jù)時(shí)效性。
4、API接口
通過(guò)API接口可獲取任務(wù)信息和采集數(shù)據(jù),支持遠(yuǎn)程控制任務(wù)啟動(dòng)與停止,實(shí)現(xiàn)數(shù)據(jù)采集與歸檔自動(dòng)化,兼容公司內(nèi)部管理平臺(tái)。
5、自定義采集
提供自動(dòng)生成爬蟲(chóng)的自定義模式,支持批量識(shí)別網(wǎng)頁(yè)元素,具備翻頁(yè)、下拉、ajax、滾動(dòng)、條件判斷等功能,滿足復(fù)雜網(wǎng)站采集需求。
6、便捷定時(shí)功能
簡(jiǎn)單設(shè)置即可實(shí)現(xiàn)采集任務(wù)的定時(shí)控制,支持單次及周期性定時(shí)任務(wù),多任務(wù)自由組合,靈活調(diào)配采集計(jì)劃。
7、全自動(dòng)數(shù)據(jù)格式化
內(nèi)置數(shù)據(jù)格式化引擎,支持字符串替換、正則表達(dá)式處理、去除空格、前后綴添加、日期格式轉(zhuǎn)換、HTML轉(zhuǎn)碼等功能,自動(dòng)完成數(shù)據(jù)標(biāo)準(zhǔn)化處理。
8、多層級(jí)采集
支持多層級(jí)網(wǎng)頁(yè)數(shù)據(jù)采集,包括商品列表頁(yè)、詳情頁(yè)及評(píng)論頁(yè),不限制層級(jí),滿足各類復(fù)雜場(chǎng)景需求。
八爪魚(yú)采集器更新內(nèi)容
【采集與數(shù)據(jù)導(dǎo)出】
1、新增"自動(dòng)導(dǎo)出到本地文件"功能。本地或云采集完成后,自動(dòng)將數(shù)據(jù)文件(Excel、Csv、Html、Json、Xml)導(dǎo)出至本地電腦。
2、新增本地采集"等待運(yùn)行"狀態(tài)。批量設(shè)置本地定時(shí)采集時(shí),超出同時(shí)啟動(dòng)任務(wù)數(shù)限制的任務(wù)自動(dòng)進(jìn)入排隊(duì)狀態(tài)。
3、新增查看本地采集歷史信息功能。點(diǎn)擊任務(wù)列表的"電腦圖標(biāo)"可查看最近一次采集的歷史記錄。
4、優(yōu)化手動(dòng)導(dǎo)出到數(shù)據(jù)庫(kù)的配置流程與交互界面。
【自動(dòng)入庫(kù)工具】
1、新增入庫(kù)計(jì)劃批量操作功能(啟/停、刪除、設(shè)置)。
2、新增入庫(kù)信息字段內(nèi)容(任務(wù)名稱、數(shù)據(jù)庫(kù)類型、執(zhí)行周期)。
3、新增支持直接修改入庫(kù)計(jì)劃配置信息的功能。
4、新增錯(cuò)誤日志提醒小紅標(biāo)功能。
5、優(yōu)化入庫(kù)工具的操作交互界面。
【企業(yè)版本協(xié)作】
1、企業(yè)版主賬號(hào)可通過(guò)任務(wù)列表"篩選器"查看企業(yè)成員賬號(hào)任務(wù)狀態(tài)。
2、企業(yè)版主賬號(hào)支持管理企業(yè)成員賬號(hào)任務(wù)(啟/停止、復(fù)制、定時(shí)、導(dǎo)出數(shù)據(jù)等)。
【其它】
1、新增觸發(fā)器條件"為空"的判斷功能。
2、修復(fù)部分任務(wù)無(wú)法采集及列表無(wú)數(shù)據(jù)的故障。
3、修復(fù)本地采集日志信息重復(fù)和順序錯(cuò)亂的問(wèn)題。
4、優(yōu)化修復(fù)其他已知bug問(wèn)題。
上一篇:心藍(lán)批量郵件管理助手
下一篇:CloudDrive2