精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
揭秘人工智能背后鮮為人知的人工力量——數據標注

來源:海豚數據科學實驗室

盡管隨著AI的普及,我們在生活中越來越依賴于人工智能,但“人工智障”的相關調侃也從來沒有消失過。

相信大家都知道,如果我們想要讓AI準確識別出圖中的鳥,我們需要在數據集中手動將這些照片標記為鳥,然后讓算法和圖像之間產生關聯性的判斷識別。
要是小規模的實驗性數據還好,一旦遇到那種規模多達數百萬個的標記需求,個中消耗的時間真是難以想象。
所謂“得數據者,得人工智能”,如今人工智能早已在我們的生活中屢見不鮮,像“指紋解鎖”、“人臉識別”等等都屬于人工智能的范疇,然而人工智能的上游基礎產業,數據標注卻鮮為人知。
什么是數據標注?
在了解數據標注之前,先來了解人工智能。
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。
人工智能,其實是部分替代人的認知功能。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
類比機器學習,我們要教它認識一只貓,直接給它一張貓的圖片,它是完全不知道這是什么。
我們得先有貓的圖片,上面標注著“貓”這個字,然后機器通過學習了大量的圖片中的特征,這時候再給機器任意一張貓的圖片,它就能認出來這是貓了。
訓練集和測試集都是標注過的數據,以貓為例,假設我們有1000張標注著“貓”的圖片,那么我們可以拿800張作為訓練集,200張作為測試集。機器從800張貓的圖片中學習得到一個模型,然后將剩下的200張機器沒有見過的圖片去給它識別,然后我們就能夠得到這個模型的準確率了。
所以目前人工智能需要標注大量數據,即對原始信息進行數據標注。
數據標注為通過分類、畫框、標注、注釋等,對圖片、語音、文本等數據進行處理,標記對象的特征,以作為機器學習基礎素材的過程。
數據標注是大部分人工智能算法得以有效運行的關鍵環節。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。
數據標注的應用場景
智能安防
智能安防是人工智能與信息技術結合的關鍵領域,對于城市與民生發展有重要的意義。通過生物識別、行為監測等技術手段,廣泛地應用于城市道路監控、車輛人流監測、公共安全防范等領域。
人臉標注在智能安防中主要應用于人臉識別與身份識別。
人臉識別也稱人像識別、面部識別,是基于人的臉部特征信息進行多年齡段、多角度、多表情、多光線的人臉圖像采集,從而完成身份識別的一種生物識別技術。人臉識別涉及的技術主要包括計算機視覺、圖像處理等。
人臉識別(視覺識別技術的一種應用)在國內的應用大致經歷從公共安全領域擴展到商業領域的過程。最初,機場、高鐵站以及酒店等場景使用這項技術對個人身份進行驗證,隨后商業銀行也開始采用人臉識別實現遠程開戶。再之后,刷臉支付、刷臉門禁也相繼出現,人臉識別逐漸從少數有限場景滲透到人們的日常生活之中,目前,人臉識別技術已廣泛應用于多個領域,除了智能安防之外,還應用于金融、司法、公安、邊檢、航天、電力、教育、醫療等眾多領域。
此外,物品標注在智能安防應用中,物品標注需要和行為標注結合。
智能交通
近年來,隨著人工智能浪潮的興起,無人駕駛、智能交通安全系統一度走進我們的生活,國內許多公司紛紛投入到自動駕駛和無人駕駛的研究,例如百度啟動的“百度無人駕駛汽車”計劃,其自主研發的無人駕駛汽車Apollo還曾亮相2018年央視春晚。
在汽車自動駕駛的過程中,想要讓汽車本身的算法做到處理更多、更復雜的場景,背后就需要有海量的真實道路數據做支撐。而這就需要依靠數據標注。
此外還有智慧停車,這些也都要依賴于人工智能數據標注的介入,對于行車視頻進行采集,路況進行提取,停車點進行標注,包括D點云障礙物、紅綠燈、車道燈及高精地圖。為行人識別、車輛識別、紅綠燈識別、車道線識別等技術提供精確訓練數據,為智能交通保駕護航。
智能醫療
智能醫療是通過打造健康檔案區域醫療信息平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療設備之間的互動,逐步達到信息化。AI與醫療行業的結合將有望迎來跨越式發展。
醫療影像標注是對醫療影像進行區域標注及分類標注,多應用于輔助臨床診斷。人工智能通過學習大量的醫療影像標注數據集,將會很好的輔助醫生進行臨床診斷以及提出治療方案。
得數據者,得人工智能
人工智能主要算法應用領域集中在計算機視覺、語音識別/語音合成,以及自然語言處理三個方面。
圖像方面:一個新研發的計算機視覺算法需要上萬張到數十萬張不等的標注圖片訓練,新功能的開發需要近萬張圖片訓練,而定期優化算法也有上千張圖片的需求,一個用于智慧城市的算法應用,每年都有數十萬張圖片的穩定需求。
語音方面:頭部公司累計應用的標注數據集已達百萬小時以上,每年需求仍以20%-30%的增速上升,要求數據服務商不僅要掌握專業的聲學知識、數據標注經驗,還要擁有語音合成的算法能力。
自然語言處理方面:隨著工業、醫療、教育的AI應用產品進一步爆發,將會有更多交互方式出現,自然語義數據處理的需求將會持續增長,有望成為繼圖像、語音之后的第三大增量市場。
有多少智能,就有多少人工
這些海量的數據幾乎全部依賴數據標注師手工進行標注,數據標注行業的缺口十分可觀,并且數據標注已經在各行業產生了極廣的應用,行業也開始逐漸升級,走向產業化。
在數據標注行業流行著一句話,“有多少智能,就有多少人工”。
近日,來自普林斯頓大學、康奈爾大學、蒙特利爾大學以及美國國家統計科學研究院共同發表的最新論文指出,這部分手動標記工作大多在美國及其他西方國家之外完成,并對全球各地的工人施以殘酷剝削。
以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等數據標記公司為例,他們主要使用來自撒哈拉以南非洲以及東南亞地區的勞動力,每天支付給員工的薪酬僅為 8 美元(折合成人民幣為 51.6 元)。但與此同時,這些企業每年卻能賺取數千萬美元的巨額收益。
現代人工智能依賴各種算法處理規模達數百萬的示例、圖像或文本素材。但在此之前,首先需要由工作人員在圖片數據集中手動標記出對象,再將標記完成的大量圖像交付給算法以學習模式,掌握如何準確識別對象。這類工作量極大、過程極其枯燥且耗時的手動數據標記過程,已經成為 AI 經濟體系中的重要組成部分。
未來,隨著AI應用場景逐漸多領域化,在數據標注行業內部,從業者也必將隨著AI行業而一同進入細分市場追逐階段,可謂機遇與挑戰并行。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)云腦研究計劃,構建互聯網(城市)云腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能A股上市公司梳理
“AI ”時代:如何迎接3.9萬億美元的未來?
清華大學發布并向社會開放AI使能平臺,五大維度輸出加速AI落地應用
持續領跑民生AI賽道,易聯眾底氣緣何而來?
人工智能‘視’‘聽’盛宴來臨
除了科大訊飛、海康威視,人工智能各專業領域上市公司有哪些?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 弥勒县| 青岛市| 伊通| 高阳县| 昌都县| 金华市| 元阳县| 佛教| 中方县| 东乌| 响水县| 慈利县| 静海县| 高密市| 廉江市| 黔西| 大洼县| 松滋市| 洛隆县| 华宁县| 井陉县| 高雄市| 新乐市| 喀什市| 桓仁| 临洮县| 乌鲁木齐县| 东源县| 安塞县| 米泉市| 甘谷县| 墨脱县| 耿马| 和田县| 天峨县| 鄢陵县| 铜梁县| 澄迈县| 上犹县| 龙井市| 井冈山市|