職位描述
崗位職責:1.遵循robots協議采集互聯網上公開的信息;2.負責采集程序和Crawlab爬蟲管理平臺的維護;3.與業(yè)務溝通抓取需求,負責數據的采集、清洗、存儲、調度等流程;4.有豐富的逆向經驗,能夠解決采集過程中遇到的反爬;5.優(yōu)化采集程序,提高采集效率和穩(wěn)定性。崗位要求:1.本科學歷,3年以上爬蟲工作經驗;2.熟練掌握python, js等語言;3.熟悉多線程編程,了解https協議;4.熟悉Crawlab或類似的爬蟲管理平臺,有豐富的爬蟲經驗(至少兩年);5.熟悉redis/mongodb/PostgreSQL等數據庫的使用;了解docker等虛擬化技術,有相關項目部署經驗;6.有扎實的python基礎,熟練使用scrapy爬蟲框架,了解運行原理并能解決相關問題;6.了解常見的反爬方式,包括但不限于ip限制,滑塊,驗證碼,數據加密,請求參數加密等(有瑞數6經驗者優(yōu)先)。
企業(yè)介紹
火石創(chuàng)造創(chuàng)立于2015年8月,是現代產業(yè)數據智能服務商、中國產業(yè)大數據和產業(yè)大腦領域領先企業(yè)?,F已建成覆蓋九大戰(zhàn)新產業(yè)、41個工業(yè)門類、300+細分領域,積累超過550億產業(yè)本體數據的全球公域產業(yè)數據中心?;诋a研、數據和智能的深度融合,打造出產業(yè)數字底座、產業(yè)大腦、產業(yè)招商大腦、金融產業(yè)通、火石數鏈等核心產品,探索形成數據智能支撐決策智能、流程數字化實現多跨協同以及資源要素和企業(yè)全生命周期需求的精準匹配等多條產業(yè)數據價值化的有效路徑。公司承建了臺州市、保定市、重慶市長壽區(qū)數字底座和多個城市、園區(qū)產業(yè)大腦,是北京高精尖產業(yè)大數據平臺、湖北科創(chuàng)企業(yè)智慧大腦、浙江省生物醫(yī)藥產業(yè)大腦、長壽區(qū)數字底座、張江科學城產業(yè)大腦等標志性項目的建設和運營方,助力產業(yè)高質量發(fā)展、加速新型工業(yè)化。迄今,已為全國28個省(區(qū)、市)、80多個城市、300多個園區(qū)、數百家數產集團及金融機構、數萬家企業(yè)提供產業(yè)數據和場景應用服務,核心產品與解決方案深受客戶與合作伙伴好評。此外,還構建起產業(yè)數據資產五級標準和增值運營生態(tài),加快實現數據資產構建和價值化閉環(huán)。公司總部在杭州,在北京、上海、成都、重慶、深圳等地設有子公司,組建了一支IT、數據技術、產業(yè)經濟學和行業(yè)領域專家跨界復合型團隊,持續(xù)構建業(yè)界領先的生成式產業(yè)經濟大模型能力及研發(fā)體系,涵蓋自然語言處理、知識圖譜關系挖掘、決策智能、智能內容生成等關鍵技術領域,以“人工智能+”引領產業(yè)升級。公司擁有自主知識產權150多項,其中國家發(fā)明專利近50項,為省重點研發(fā)計劃項目入選單位。已通過國家高新技術企業(yè)、產業(yè)大腦省級研發(fā)中心、省民營企業(yè)數字化轉型促進中心、產業(yè)大數據工程研究中心、產業(yè)數字化服務商、大數據示范企業(yè)、專精特新中小企業(yè)等認定,以及數據安全管理能力國家級認證,是產業(yè)大數據行業(yè)首家獲證單位。