火車頭采集器怎么用?
軟件程序的獲取:
大家可以從百度中搜索“火車頭采集器”,并進入對應官方來獲取程序的最新版本下載地址。當然也可以從小編所提供的網盤地址中獲取最新版本程序:
請點擊輸入圖片描述
請點擊輸入圖片描述
2
安裝并運行“火車頭采集器”程序,在彈出的登陸界面中直接點擊“登陸”按鈕就可以以免費版身份登陸。
請點擊輸入圖片描述
3
在程序主界面中,點擊“新建”下拉箭頭,從中選擇“任務”項。
請點擊輸入圖片描述
4
在彈出的窗口中,輸入“任務名”,同時點擊“起始網址”欄目右側的“添加”按鈕。
請點擊輸入圖片描述
5
接下來就極為重要的一步,就是對要進行采集的網站進行分板,對所采取的網站中各片文章的URL進行綜合分析并找出規律,最后按如圖進行填寫。
請點擊輸入圖片描述
6
然后切換至“第二步:采集內容規則”選項卡中,我們需要對網頁內容進行分板。在此以“搜狗瀏覽器”為例,右擊要進行分析的網頁,從彈出的菜單中選擇“審查元素”項。
請點擊輸入圖片描述
7
在“開發式模式”界面中,點擊“選擇頁面中的一個元素去透視”按鈕,接著點擊“標題”內容,此時就可以在“開發者”窗口中顯示標題所對應的標簽,此例為“h2"。
請點擊輸入圖片描述
8
接下來在”采集內容規則“界面中,點擊“添加”按鈕來添加“標題”項,或者直接雙擊“標題”項進行修改。在彈出的界面中,勾選”前后截取“,將設置前后輟分別為"<h2>“、”</h2>".
請點擊輸入圖片描述
9
利用同樣的方法添加其它采集內容的規則。
切換至“第三步:發布內容設置”選項卡,勾選“啟用 方式二”,并進行如圖設置。
請點擊輸入圖片描述
10
最后從任務列表中,勾選要采集的內容,點擊“開始”按鈕就可以按規則采集網站中的網頁內容啦。
請點擊輸入圖片描述
如果還有啥問題,請留言或者私信,如果回答的還算可以,請列為最佳答案
火車頭采集器使用方法
設置好規則就可以采集了,不過火車頭的采集規則相當復雜,可以說很難,不專門研究好幾天還真不會用,采集的東西不是有源碼,就是沒有采集下來,要不然就是發布不上去,反正就是用起來挺費勁的,前幾天有人介紹七星采集軟件,功能挺全的,規則設置也很簡單,你不妨試試他的。
http://hi.baidu.com/qixingcaiji
火車頭采集器怎么用
作為同時使用八爪魚采集器和寫爬蟲的非技術的莫名其妙喜歡自己琢磨技術的互聯網運營喵。。。我來談談心得感想。
八爪魚有一些優勢,比如學習成本低,可視化流程,快速搭建采集系統。能直接導出excel文件和導出到數據庫中。降低采集成本,云采集提供10個節點,也能省事不少。
不好的地方就是,即使看似很簡單了,而且還有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。關于這個我在我的博客里簡單寫了寫,不過說實話心得太多,還沒仔細整理。
首先里面的循環都是xpath元素定位,如果用單純的傻瓜化點擊定位的話,很死板,大批量采集頁面的時候很容易出錯。另外用這個工具的,因為方便,小白太多,成天有人問普通問題,他們都不會看頁面結構,也不懂xpath,很容易出現采集不全,無限翻頁等問題。
但是八爪魚采集器的ajax加載,模擬手機頁面,過濾廣告,滾動至頁面底端等功能堪稱神器,一個勾選就能搞定。寫代碼很麻煩的,實現這些功能費勁。
八爪魚畢竟只是工具,自由度肯定完敗編程。勝在方便,快速,低成本。
八爪魚判斷語錄較弱,無法進行復雜判斷,也無法執行復雜邏輯。還有就是八爪魚只有企業版才能解決驗證碼問題,一般版本無法接入打碼平臺。
還有一點就是沒有ocr功能,58同城和趕集網采集的電話號碼都是圖片格式,python可以用開源圖像識別庫解決,對接進去識別便可。
除非對技術有很高要求,否則我覺得八爪魚采集器很好用,比火車采集器好用,雖然效率沒那么高,但是比起費勁學習和研究數據包,還是用這個省事。我沒事也會在八爪魚群里解答一些規則編制的問題。
作者:極客兔子
來源:知乎
求火車頭采集器實用教程,有視頻的最好,問題也喜歡,謝謝
2020最新淘客教程百度網盤免費資源在線學習
鏈接: https://pan.baidu.com/s/1XDr-OeL8l3S4hotwwSEhFQ
提取碼: i2pk
2020最新淘客教程 淘客社交電商玩法 淘寶客實戰分享會5.16 客戶VX變現教程全套課程自動發貨
2019年最新【短視頻電商】入門指南
2019年8月4日更新 網絡營銷(教程)
2019年8月3日更新 網絡營銷(教程)
2019年6月29日更新 閑魚項目玩法實戰班
2019年6月27日更新 閑魚項目玩法實戰班 閑魚市場分析及選品細節(第一節).ppt
閑魚市場分析及選品細節(第一節).mp4
閑魚如何選品及多種變現玩法(第二節).ppt
閑魚如何選品及多種變現玩法(第二節).mp4
實操:閑魚排名優化玩法及常見問題解答(第三節下).mp4
實操:閑魚排名優化玩法及常見問題解答(第三節上).mp4
飛飛火車頭采集器怎么寫發布規則
1
首先講一講網站結構,通常網站結構為樹形結構,一個網站主要包以下幾種頁面:首頁、欄目頁、文章頁,其結構如下圖。
其次講一講火車頭采集原理,火車頭的運行需要一套規則來指定該如何采集所需數據,即需要編寫火車頭采集規則,編寫采集規則也是新手最頭痛的問題。
火車頭采集器通常通過網址抓取網站返回的源代碼,然后在源代碼中提取需要的信息。因此,采集數據需要先采集網址,然后再采集數據。
2
下面開始編寫采集規則:
運行LocoyPlatform.exe
3
在左側“任務列表樹”選擇一個分組點擊右鍵,選擇“新建任務”彈出新建任務對話框。填寫任務名,網站編碼一般選擇自動即可。
添加起始網址
填寫“第一步:采集網址規則”這里需要按照網站的樹形結構逐級獲取下一級結構的網址,直至獲取到內容頁的網址。先填寫起始網址,通常為目標站首頁地址。點擊“添加”,在單條網址處填上火車頭博客的首頁地址,然后依次點擊“添加” ->“完成”。
編寫“多級網址獲取”規則
這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區域,先查看起始頁地址的源碼,找到如圖所示代碼區域:
點擊右側“添加”按鈕打開“添加多級網址采集規則”,選擇“從頁面自動分析得到地址鏈接”單選按鈕,在下面“從該選定區域中提取網址”,“從”(左側)文本框填上欄目地址代碼區域開始之前的標志性代碼(要保證其在該頁的唯一性),“到”右側文本框填上欄目地址代碼區域結束之后的標志性代碼,在“結果網址過濾”的“必須包含”和“不得包含”文本框填上相應代碼,如果該區域沒有多余的鏈接不需要過濾,可以不填,這里的欄目頁網址必須包含“category-”。然后點擊“保存”返回。
現在需要獲取內容頁的地址。先打開欄目頁查看源碼,查找內容頁地址存在的區域及地址規律。按照上一步的方法先填寫內容頁所在區域的起始和結束標志性代碼,然后分析這個區域中包含的鏈接與我們說需要的內容頁地址鏈接規律,添加過濾代碼。這里起始代碼為“<!--顯示-->”,結束代碼為“<div class="page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#”。如圖:
需要注意的是這里文章比較多會有很多分頁,所以需要填寫“列表分頁獲取”規則。通常只需要指定分頁代碼的區域,如有必要可以填寫“組合生成列表頁分頁”規則。這里的列表分頁規則其實代碼為“<li class="pageNumber">”,結束代碼為“title="下一頁">”。如果勾選“自動識別分頁”的話,會自動提取a標簽的href屬性,如果不勾選自動識別的話,需要填寫組合生成列表頁分頁”規則。
然后保存返回,可以通過“測試網址采集”來測試規則是否正確,不正確可以返回修改規則,正確的話可以開始編寫“第二步采集內容規則”。
編寫“第二步采集內容規則”
先打開內容頁以及內容頁的源碼,找到需要提取的信息的前后代碼特征。以提取標題和內容為例。首先復制文章標題,然后在源碼中查看該標題出現的幾處地方,找一處前后代碼在每一篇文章都一樣的地方,該例共出現了3處,第二處的代碼沒有其他干擾代碼。點擊“添加”,標簽名填“標題”,提取數據方式選擇前后截取,前后代碼分別為“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的內容需要作進一步處理(如替換刪除編碼轉換過濾html等),在下方“數據處理”點擊添加填寫相應規則。
再添加一個標簽,標簽名為“內容”,按照上述方法填寫內容的前后代碼片段,需要注意的是,前后代碼片段最好不要出現不完整的標簽(如:“<div class="Content-body"” 應該寫作“<div class="Content-body">”,一個完整的標簽應該是以“<”開始,以“>”結束,如果<>之間的內容在各個內容頁有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內容會包含部分不完整的標簽。通常正文包含的HTML會比較多,可以添加HTML過濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標簽。
測試內容采集規則
保存規則后返回采集內容規則頁面,在右側“規則測試”的典型頁面文本框填上一個內容頁的地址,然后點擊測試,如果下面顯示到的內容符合預期說明可以了,如果未獲取到內容或者獲取到內容不正確,返回檢查并修改規則。
開始采集
選擇要采集的任務規則,勾選“采網址”和“采內容”復選框,點擊工具欄“開始”按鈕。
后續工作
采集到的數據保存在數據庫,可以通過在任務名上點右鍵,選擇“打開DATA下任務文件夾”打開數據庫所在位置,該數據庫可以通過ACCESS打開和編輯。如果想要重新采集,需要通過右鍵選擇“清空該任務網址庫”和“清空任務所有采集數據”。