這是一篇「人機協作」的文章,
初稿由darksee.ai「智能寫手」生成,
darksee.ai閱讀了全網數據。
歡迎在MixLab討論相關內容、技術實現,
def smart_writer():
人工智能能否應用與有創造力的場景?
人工智能除了繪畫、海報設計、攝影,還能參與到文學作品的創作中。
本文以指南的形式,梳理人工智能寫作相關的知識點、產品、技術棧,分享給大家。
return
智能寫手,用計算機技術來寫文章
這是一個機器人寫稿的時代,智能寫手應用的行業涉及非常廣,有新聞業、媒體業、廣告業、自媒體行業等等,跟文字生產有關的都有所應用。
最典型的是關于機器人記者的應用,是不是意味著“人類記者即將失業”?
其實不然,目前,新聞機器人主要用于以數據為基礎的報道領域,例如公司年報、股票市場簡報、地震報道和體育報道等等數據類的新聞。
還有應用在文學作品上,例如互動小說、小說生成之類的。
甚至是書籍的生成,有一個做法是通過瀏覽維基百科,算法自動生成教科書。
人工智能寫作涉及的相關概念非常多,下面一一介紹。
1 相關概念
程序寫作
Program Writing
使用計算機程序來生成文字,包含的范圍非常廣。
電腦生成文學
Computer-Generated Literary Art
主要是計算機與文學方面的結合,偏藝術創作。
智能寫手
artificial intelligence writer
主要是使用機器學習、深度學習等算法來生成文章或輔助寫作。應用有寫稿機器人、寫作輔助工具、智能寫詩、寫春聯等。
機器人記者
robo-journalist
主要用于寫新聞報道,甚至能夠對事實進行評論。比如在體育報道方面,它能夠充分理解“反敗為勝”“團隊努力”之類的專業術語,同時根據自己的判斷對體育比賽最重要的方面進行報道。它不會單純地復述事實,而是會給文章加入一些不同的元素。
互動小說
Interactive Fiction
通常縮寫成IF,指在軟件模擬的環境中,讀者通過輸入純文字命令來控制人物和影響環境,從而完成故事講述。通俗一點的理解,可以將它看作是文字版的冒險或RPG游戲。
非線性敘事
由于是涉及到文學作品的生成、創作,計算機、人工智能改變了以往的敘事邏輯,我們可以技術的幫助下,進行非線性的敘事創作。
2 人工智能寫作基本能力
第一是總結能力,分析大量數據,從而總結事實;
第二是解構重組能力,從大量數據中提取所需內容,并通過排列、組合形成文檔。
3 典型的技術思路
使用創新的創作技巧撰寫非凡的文本,專注于新的寫作方法,而不是傳統的抒情或敘事手法。下面分別從新聞生產、新媒體內容生成、文學作品、書籍內容生成來介紹。
3.1新聞編碼的理論
來源于《紐約時報》研究與發展實驗室提出的「Particles理論」,這套理論核心是:給新聞編碼。
以“積木式”的編輯模式改變新聞生產、分發全部環節,并最大限度釋放媒體人的生產力。
最核心的是把可能會被重復使用的部分識別出來并加以注釋,這一過程被稱為Particles。
從而,所有的資訊內容都被轉化為了可供拼裝的“顆粒”,每個部分都被重新編碼,添加標簽,而且是可以被嵌入的。
3.2算法新聞的制作方法
首先,選定主題;
其次,編寫爬蟲爬取題材對應的文章數據;
第三,清洗數據,整理數據,去除無效信息;
第四,探索數據,發現其中有價值的信息;
最后,編寫機器學習算法完成創作。
機器學習可以幫助記者完成日常任務,比如
尋找新聞;
捕捉圖片和影像;
在社交媒體上編輯和發布新聞作品;
自動轉錄,使用圖像識別技術來識別照片中的人,以及給視頻加上字幕;
從社交媒體的海量內容中尋找特定信息;
3.3機器自動生成新媒體內容
用機器完成內容的生成,思路來源于一款叫「新聞七點鐘News at Seven」的應用,利用現有的網絡資源、外部文本、多媒體資料庫和用戶偏好,來為用戶創建個性化的音頻和視頻內容。
具體流程:
首先,根據用戶偏好在系統中找到相關的文本
其次,處理文本
第三,補充圖像、視頻和相關的網友回復
第四,輸出一個在線Flash短片,用卡通人物形象模仿傳統的晚間新聞廣播形式,來向用戶播放內容。
3.4文學作品創作思路
舉一個撰寫「關于飲食習慣」的文學作品的例子。
首先,收集微博文本內容;
其次,提取出用戶飲食習慣等數據,主要使用分詞、詞性標注和依存句法分析等NLP技術。
那么如何抽取出用戶飲食習慣呢?主要是由三個條件組成的規則:
一條微博里含有詞語“吃”;
與“吃”相關的句法關系為動賓關系;
“吃”的賓語為名詞;
就可以判斷發生飲食行為,進而提取出“吃”的賓語就是相關的食物,從而形成飲食習慣數據。
最后,重新組織語言,把用戶的飲食習慣數據書寫出來。
3.5新型書籍的自動生成
在沒有人工參與的情況下,自動生成整本維基教科書;
這部分是來源于Wikibook-bot的一項技術,是由以色列內蓋夫本古里安大學的沙哈爾阿德馬蒂Shahar Admati 及其同事開發的;
主要的流程如下:
首先,準備一組現有的維基教科書,用作訓練數據集,數量級在6000本以上。
其次,進行數據清洗,規則是:
1 關注瀏覽量超過 1000 次的教科書;
2 涵蓋超過十個章節
第三,生成標題,該標題用以描述某種概念。
第四,文章清洗,規則類似于pagerank的原理,文章通常通過超鏈接指向其他文章,在網絡上搜集出通過點擊超鏈接三次以內得到的所有文章作為優質的文章。每本人工維基教科書都有自己的網絡結構,其決定因素包括,引用該文的文章鏈接數量、指向其他文章的鏈接數量、所包含文章的頁面排名列表等。
第五,文章分類,對所有維基百科文章進行分類;
第六,每一個類別主題對應的文章的再次清洗,該算法會查看每一篇給定主題篩選出來的文章,接著判斷如果將其添加到維基教科書中是否會使該書的網絡結構與人工創作的書籍更相似。如果不相似,那么該文章就會排除在外。
第七,將每一個類別主題對應的文章組織成章節。主要借助聚類算法,結合由整組文章組成的網絡,找出如何將其劃分為連貫的集群。
第八,確定文章在每個章節中的出現順序。使用的是枚舉,然后排序的思路,通過給文章成對分組,對所有文章枚舉所有組合,然后使用網絡模型來計算排序邏輯,最終計算出更為理想的文章順序以及章節順序。
4 主要涉及的NLP技術
NLP
自然語言處理
為了實現寫作類的應用,需要對文本進行大量的處理,NLP是一種讓機器能夠像我們平常那樣閱讀和理解語言的技術。常常會結合知識圖譜來使用,以提升產品效果。
我們需要掌握NLP的常見任務及算法。
4.1主要的NLP任務
文本分類、情感分析、分詞、依存句法分析、實體識別等;
4.2深度學習算法
目前深度學習有以下典型的算法,可以一一詳細了解掌握;
參考地址https://github.com/graykode/nlp-tutorial
基本嵌入模型
NNLM - 預測下一個單詞Word2Vec(Skip-gram) - 訓練詞嵌入并展示詞的類推圖FastText(Application Level) - 情感分類
CNN
TextCNN - 二元情感分類DCNN(進行中……)
RNN
TextRNN - 預測下一步TextLSTM - 自動完成Bi-LSTM - 在長句子中預測下一個單詞
注意力機制
Seq2Seq - 同類詞轉換Seq2Seq with Attention - 翻譯Bi-LSTM with Attention - 二元情感分類
基于 Transformer 的模型
Transformer - 翻譯BERT - 分類是否是下一句和預測 Mask 掉的詞
5 人工智能輔助寫作
主要介紹一些相關產品。
Grammarly在線寫作網站
Grammarly是一款全自動英文寫作工具, 可以實時檢查語法,一邊寫一邊改,語法問題和修改意見會以標注的形式顯示在文檔的右側,方便用戶去一一查看,而且在每條批注下面都會配有詳細的解釋,告訴用戶哪里錯了,為什么要這樣修改。
百度創作大腦
百度人工智能寫作輔助平臺“創作大腦”,智能助手可以為人類創作者提供糾錯、提取信息等各種輔助工作。
神碼AI人工智能寫作軟件
通過各種各樣的關鍵詞,結合文章要求,分析詞匯,輔助語句,以及整篇文章的思維邏輯,能夠自動智能化的進行寫作。
小發貓AI+寫作助手
自媒體運營者可輕松獲取最熱門文章,而不需要自己去編寫。
寫匠AIWriter
一款基于人工智能與認知科學的中文寫作輔助工具,開智團隊研發。內置數百萬條錯誤規則,可迅速檢查各類文本錯誤。同時,寫匠還融合古典風格、廣告法寫作規則,為用戶提供細致指導。
6 算法新聞、機器人記者
目前在這個領域領先的有國外的2家公司:
自動化洞察力公司 Automated Insights
敘述科學公司 Narrative Science
我們先來了解下算法新聞的簡史。
6.1算法新聞簡史
國外的早期創業公司,如今的佼佼者
早在2007年,美國的「自動化洞察力」Automated Insights公司成立;
2009年,美國西北大學研發的StatsMonkey「統計猴子」系統就撰寫了一篇關于美國職業棒球大聯盟季后賽的新聞稿件;
2010年,「敘述科學」公司Narrative Science成立;
由機器人記者主導的新聞行業正在迅速崛起
在2014年,美聯社與Automated Insight公司達成協議,成為機器人記者的早期的采用者。
2014年3月,第一條完全由計算機程序生產的新聞報道產生。作為首家“聘用”機器人記者的主流媒體,《洛杉磯時報(LA Times)》在地震發生后3分鐘就發布了首條相關新聞。
在這一年,機器人寫稿技術研發公司Automated Insight全年生產了10億條新聞。
在2015年,新華社推出可以批量編寫新聞的寫作機器人「快筆小新」;
同年9月,騰訊財經發布寫作機器人「Dreamwriter」;
1年后,中國湖北廣播電視臺長江云新聞客戶端就派出兩會機器人記者“云朵”進行采訪。
第一財經也發布寫作機器人「DT稿王」
同年,國外挪威新聞社NTB啟動機器人,開始著手制作自動化足球新聞報道項目;
自動化新聞已經通過自動新聞寫作和發行進入新聞編輯室
2017年1月,南方都市報社寫作機器人「小南」正式上崗,推出第一篇共300余字的春運報道。
……
以上為算法新聞簡史。
我們需要知道「機器人記者」并不是真正的職業記者,而是一種新聞報道軟件,擁有自動撰寫新聞故事的功能。相類似的概念有算法新聞、自動新聞。
媒體一般都會形象地,描述機器人記者在媒體單位“上班”,機器人具備“真人記者”所有的采編功能,不會出錯,不用休息,所寫的文章不僅時效性強,質量也高,工作效率比“真人記者”高出好幾倍。
6.2經典產品「機器人記者」
由美國敘述科學公司Narrative Science發明的寫作軟件;這個軟件擁有自動撰寫新聞故事的功能。
基于選題和新聞熱點追蹤,通過平臺授權,結構化采集、處理、分類、分析原始數據素材,快速抓取,生成新聞關鍵詞或線索,然后,利用文本分析和信息抽取技術,以模板和規則知識庫的方式,自動生成完整的新聞報道。
尤其在體育賽事,金融經濟,財報數據等方面作用突出。
6.3 2018年數據新聞創新獎《搜索偵察機》
記者彼得·奧爾德烏斯Peter Aldhous,開發了這個項目,他使用了機器學習——特別是「隨機森林random forest」算法,從大量的飛機飛行數據中,建立了一個模型,可以根據以下數據:
飛機的轉彎速率
飛行速度
飛行高度
每條飛行路徑周圍的矩形區域
飛行持續時間
識別出可能是“隱藏身份的偵察機”。
6.4各大報社、雜志社的應用
國內有人民日報「小端」、光明日報「小明」、今日頭條「張小明」、南方都市報「小南」等等。
新華社「快筆小新」
「快筆小新」的寫稿流程由數據采集、數據分析、生成稿件、編發四個環節組成,這一機器人適用于體育賽事、經濟行情、證券信息等快訊、簡訊類稿件的寫作。
騰訊「DREAMWRITER」
騰訊在2015年9月推出了一個叫 Dreamwriter 自動化新聞寫作機器人。最開始,這項技術主要用在財經領域,現在它在體育賽事的快速報道中也有很成功的應用案例了。
2016年里約奧運會期間,Dreamwriter 就自動撰寫了3000多篇實時戰報,是奧運媒體報道團的“效率之王”。
在“2017騰訊媒體+峰會”現場,Dreamwriter 平均單篇成文速度僅為0.5秒,一眨眼的時間就寫了14篇稿件。
國外的應用主要如下:
《衛報》
使用機器人輔助寫作,并發表了一篇名為《Political donations plunge to $16.7m – down from average $25m a year》
《華盛頓郵報》
Heliograf機器人記者,在報道2016年夏季奧運會和2016年選舉時證明了它的有用性;
還幫助《華盛頓郵報》在一年一度的全球大獎中獲得了「巧妙使用機器人獎Excellence in Use of Bots」
《 Guardian》
2014年,英國《 Guardian》進行了紙質測試計劃,安排“機器人”統計分析社交網絡上的共享熱點和注意力加熱,然后內容過濾、編輯排版和打印,最后制作一份報紙。
《華爾街日報》
應用于金融投資研究報告片段的摘錄,網站會提醒讀者那一段摘錄是由機器人完成的,哪些是由人類完成的。主要摘錄類似于以下的文字:
第二季度的現金結余8.3億美元,這意味著在第一季度減少1.4億美元之后,第二季度又消耗了8000萬美元
Q2 cash balance expectation of $830m implies ~$80m of cash burn in Q2 after a $140m reduction in cash balance in Q1
這句話實際上只包含了三個數據點,并使用特定的語法合并在一起,而且不包含任何巧合的成分。
《洛杉磯時報》
《洛杉磯時報》靠「機器人寫手」,第一時間報道了美國加州2014年3月18日當地時間早晨發生4.4級地震;
還應用于對犯罪時間錯誤歸類的分析。
《紐約時報》
《紐約時報》對美國國會議員的圖像識別;
還應用機器人編輯Blossom預測哪些文章有可能會在社交網站上引起傳播,相應地給版面責任編輯提出建議;
《福布斯》
2011年,開始使用敘述科學公司 Narrative Science 的自動寫稿程序來撰寫新聞;
彭博社
應用機器人系統Cyborg,幫助記者在每個季度進行大量的文章撰寫,數量達到數千篇,包括各公司的財報文章等。機器人可以在財報出現的一瞬間就對其進行詳細的剖析,并且提供包含這些相關事實和數據的實時新聞報道,速度非常迅速。
美聯社
從2014年7月開始使用語言大師 Wordsmith 軟件,利用自動化技術來寫公司財務報表。幾毫秒的時間,軟件就能寫出一篇美聯社風格的完整報道。
6.5技術進展
現在的機器人寫稿仍以摘選稿件中句子為主,與現在記者能力相差甚遠,而且主要仍在金融領域應用。
6.6人形機器人
結合硬件,還有人形機器人版本的機器人記者的出現,例如中國智能機器人佳佳作為新華社特約記者越洋采訪了美國著名科技觀察家凱文·凱利。
這是全球首次由高仿真智能機器人作為記者與人進行交互對話,專家認為具有標志性意義。
7 新媒體與人工智能寫作
按照美國新媒體藝術理論家馬諾維奇(Lev Manovich)在《新媒體語言》一書中對新媒體技術所下的定義:
所有現存媒體通過電腦轉換成數字化的數據、照片、動態形象、聲音、形狀空間和文本,且都可以計算,構成一套電腦數據的,這就是新媒體。
這是一個藝術與科技跨界結合的領域,我們可以關注國外的大牛:
MIT的Nick Montfort教授
國際上被公認為詩人和通過計算探索語言的人
他撰寫了大量互動小說文章,發布在博客Grand Text Auto上,同時也開發了許多數字詩和文本生成器。他最近的著作是「The Future」和「The Truelist」,有興趣可以去了解下他的研究。
下面給大家介紹典型的案例。
7.1互動小說與新型文學作品的創作
2016年,人工智能創作的小說在日本「星新一文學獎」上被評委稱為「情節無破綻」。
人工智能應用于文學創作領域,為文學作品帶來了新鮮血液,與文學作品的結合還增添了作品的互動性,與游戲、電影產生了跨界交融。
互動故事平臺
加拿大多倫多的互動故事平臺Wattpad
其產品包括匹配創作者和讀者的機器寫作,識別故事“趨勢”,根據主題進行創意寫作等;還開發了視頻講故事的應用「Raccoon」;
這是一個故事版的YouTube,專注于非虛構的,基于視頻的,連接全球各地愿意分享、觀看視頻故事的用戶。作者用視頻的形式講一段故事,用戶可以收藏或分享。
社交媒體文學作品
對社交媒體上信息的重組,從而產生了新的文學形式。這時候機器類似于記者,采編社交媒體上的用戶發言,而生成報道。
全球日常活動日記
阿姆斯特丹的Moniker設計工作室編寫了一個針對推特信息的簡單查詢,
它搜索類似“這是 + 點 + 分 + 上午/下午 + 和 + ”這類結構的句子,構成一份包含全球日常活動的日記。
這種“這是幾點和我是”句式,可以反映社交媒體上用戶的日常活動狀態,下面是生成的報道效果:
“這是12:29而我需要點飲料”
“這是1:00pm而我還沒有離開我的床”
“這是11:00pm我終于得到了一杯咖啡。”
《推傲慢與推偏見》
Twide and Twejudice
把推特中的內容,按照奧斯汀原文中的對話的風格,來重新生成。原理是替換相似內容的用詞,讓對話看起來“更接地氣”:
Is he/she overrun 0r single?
What _a fineee thingi 4my rageaholics girls!
類似于游戲的互動小說
案例一個互動小說,《The Hitchhiker's Guide to the Galaxy(銀河系漫游指南)》;
小說講述的是一個名叫阿瑟爾·登特的地球人,因為遭遇外星人修路拆遷,被卷入星際探險的故事。
它是根據同名科幻小說改編的互動版,雖然開頭部分與原小說非常類似,但隨著故事的開展。及用戶的參與,出現了很多新的故事情節和從而產生了各種不同的結局。
體驗地址:www.bbc.co.uk/h2g2game
更游戲化的體驗
IOS平臺互動小說「florence」
是一款漫畫風格的互動故事書式的手機游戲,出自《紀念碑谷》首席設計師之手,講述了女主人公Florence Yeoh的初戀故事。
靈感來源于"Slice of Life"漫畫小說和網絡漫畫;
但其故事是線性的,不存在選擇與劇情分支。
互動電影
《黑鏡:潘達斯奈基》
這部電影擁有一萬億種不同的情節排列組合,和五個截然不同的結局。
憑借互動版《黑鏡》,Netflix再次向世界證明自己“用技術打破傳統、引領內容創新”的價值觀。
觀眾用觸屏、鼠標、遙控器等就可以自己控制劇情走向和主角命運;選擇不同,每個觀眾看到的內容就不同、故事結局也因人而異。
7.2 NaNoGenMo比賽
花一個月寫代碼,生成一個50k字的小說,最后分享小說和代碼。
是 Darius Kazemi 在美國「全國小說寫作月 National Novel Writing Month:NaNoWriMo」的基礎上延伸出的一個項目;
NaNoGenMo的目的更多的是娛樂自己和他人;
Github地址https://nanogenmo.github.io
World Clock
世界鐘
是2013年的冠軍,它由MIT數字媒體方向的Nick Montfort教授完成;
他用165行Python代碼將字符、位置信息以及一天之中每分鐘的動作設計排列為新的序列。
Teens Wander Around a House小說
圍繞某個話題的對話,但對話的內容毫無意義
設定了一大堆的智能代理,讓它們隨機的穿過房間,程序會記錄下它們的行動。
當兩個同時來到一間屋子的時候,程序會從Twitter上摘取對話內容。
一個微博內容也許就能成為一個問題,比如“明天晚飯吃什么?”
那么緊接著的對話中也要包含“晚飯”這個詞,“一天之中我最喜歡的就是晚飯”。
Generated Detective
這是一部黑色喜劇,生成的漫畫有時不連貫,有如夢幻式的敘述;
編寫的程序從「Project Gutenberg古騰堡項目」的偵探小說中搜尋包含下列一系列單詞的語句:問題、兇手、證人、目擊、場景、殺手、武器、線索、指責、揭示。
隨后,程序用采集的每個語句檢索Flickr,并把圖像拼接成漫畫的形式,合成對話框,最后以一個怪異而神秘的黑色故事作為結尾。
8 機器的工作方式
我們已潛移默化地理解機器的工作方式,用機器所習慣的語言與機器溝通。例如,我們在適用搜索的時候,是不是跟我們日常的語言所不一樣,我們習慣了不斷變換關鍵字,不斷組合關鍵字來與機器溝通。
9 機器風格
以文章是否讀起來像人類作品作為評判電腦作品的依據是迂腐的,因為什么樣的語言能夠被稱作“自然語言”的標準是相對的,而不是絕對的。
機器生成文章,以人類作家的標準去評判,是目前大眾所認為的“正確”的事,然而,正是由于是機器生成的,有機器自身的獨特風格,那有沒有一種評判標準,脫離人類的評判標準,但符合機器的特點?
機器生成文本是另外一種文學風格,是機器所擅長的。
能力1「節選」
按句式,例如:
A認為…
或按人物,例如:
翟天臨事件調查組
翟天臨導師名字
北大回應翟天臨事件
人民日報談翟天臨
能力2「組裝」
把結構化數據,填充入語句中
比如A,B 字段的數據,填充如句子:
A可能造成B
能力3「解構重組」
情感分析,按照情感的設定重組章節
這里介紹2個案例:
《搜索者》
The Seeker
https://github.com/thricedotted/theseeker
NaNoGenMo 2014年的作品
一本試圖“通過閱讀WikiHow來了解人類行為”的機器的自傳。
The Seeker的每次運行都是獨一無二的,因為它依賴于外部隨機性(在本例中為WikiHow)。
搜索者既是算法,也是代理人,主角,敘述者。
從本質上講,它是一個解析,解構和重構文本的實體。
此算法的輸出是其執行此操作的“日志”,搜集關于人類活動的概念。
另一個是:
我在清水中淌過
I Waded in Clear Water
作者使用了情緒分析算法,根據文本的情緒特征對其進行分級,并據此規則改寫Gustavus Hindman Miller的《10000個夢的解釋》。
主要的句式是:
“行為”+“含義”
action + denotation結構
例如:
行為:“看到橡樹結滿橡果”
含義:“意味著升職加薪”
首先將行為部分轉換為第一人稱,簡單的將句子重新處理成:
“我看到橡樹結滿橡果”
然后根據情緒分析算法所得出的結果,
將“含義”部分按照從夢中最壞到最好的順序重新排列。
情緒分數創建了短的章節比如:
“我將車開到渾水中。我看到別人在除草”
和由一系列不相干的行動組成的長章節:
“我走下一層樓梯。
我看到一個瘸子。
我看到我的愛人喝鴉片酒解愁。
我聽見嘲笑聲。
我停在窗臺。
我身上有虱子。
我看到。
我丟掉了它。
無論如何我都感到憂郁。
我發出一條信息……”
9 人機協作
機器有其特定的風格,而人機協作,可以產生更為豐富、有創意的成果,一個典型的人機協作思路是:
機器生成若干結果,人從中選擇一個結果,不斷重復此過程,以完成某項任務。
這是Kazemi在2015年的NaNoGenMo作品中加入這種新的人機交流形式,讓人和算法一起“合作”寫小說;
算法會起草十個句子,然后他作為人類從中選擇他認為最好的那句。
算法寫作了文章中的每一個字,而作者則決定了整本小說的形式。
10年后,
人們對機器學習/人工智能的看法將與我們今天對Excel、Word的看法一樣。
它只是我們用來完成某些任務的工具。
不要想我們可以在哪里可以使用人工智能,
反而應該想想我們每天都要面對哪些問題,
然后評估人工智能是否可以解決這些問題。
以上為全文。
指南推薦
歡迎在MixLab討論相關內容、技術實現,