精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Fluent文檔翻譯中使用的工具
userphoto

2024.11.22 四川

關注

前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機翻了一遍(見Fluent理論文檔中文版V1Fluent UserGuide中文版)。后臺有道友問使用了哪些大模型。基于好東西不能藏私的指導思想,這里就來逐個介紹一下。

1 文檔本地化

第一步工作是將文檔轉化為本地markdown格式。這里有兩種方式:

  1. 數學公式非常多的文檔。比如Theory Guide,里面有大量的數學公式需要轉化成latex格式,一個個的識別肯定不太現實。這里使用的是Doc2x(官網地址:https://doc2x.noedgeai.com/),不過這貨現在收費了,1000頁文檔需要11塊。公式識別效果還不錯,不過對于文本格式(如加粗、斜體等)的識別效果不佳。非常適合于大量公式需要處理的文檔。如果不想花錢,開源的話也可以選擇使用Marker(地址:https://github.com/VikParuchuri/marker)、MinerU(地址:https://github.com/opendatalab/MinerU)或pymupdf4llm(官網地址:https://pypi.org/project/pymupdf4llm/)等。不過開源程序在應付復雜文檔時可能會效果不佳。
  2. 文本格式比較多的文檔。如User Guide。文檔中包含有大量的格式樣式(加粗、斜體、縮進、列表、表格等)。這類文檔使用上面的工具效果都很差。一般情況下可以打開網頁版,然后直接將頁面內容拷貝到markdown編輯器(如typora、obsidian等)中,可以完整保留原文格式。

2 文檔翻譯及潤色

現階段我使用的是大語言模型進行翻譯。主要是考慮專業術語翻譯和后期的文本潤色。目前大語言模型對專業術語的識別效果還是挺不錯的,而且可以讀取整段文本進行翻譯,這與傳統的逐句翻譯模式不同。

目前主要使用的是國產大模型qwen2.5-72Bdeepseek。其中qwen2.5-72B主要用于翻譯,而deepseek則主要用于潤色,總體上來看效果還是挺不錯的。使用過程中個人感覺就翻譯效果來說千問商業大模型(包括turbo、pro和max版)實際效果遠不如其開源的72B版本,而deepseek的中文表達能力個人覺得相當好,很符合本人的語言表達習慣。

qwen2.5-72B與deepseek均使用的是硅基流動(地址:https://siliconflow.cn/zh-cn/)提供的api。

為了方便,在使用過程中還用到了一個名為Cherry Studio(地址:https://cherry-ai.com/)的前端工具,此工具支持定義智能體,因此只需要將智能體定義后,后續就能夠將待翻譯的markdown文件扔進去自行翻譯和潤色了。

Cherry Studio工作界面

3 文檔校對

這個目前沒有那么好的工具,只能靠人工了。


(完)

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型最新情報
9種AI大模型免費API使用技巧
如何用markdown寫文檔?這個方法就能做到
有了ModelScope-Agent,小白也能打造專屬智能體,附保姆級教程
大模型“免費”送,廠商們圖什么?
“美國最該尷尬的,是今天中國開源模型們重大的貢獻”
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 冀州市| 汽车| 昌黎县| 高台县| 山丹县| 兴宁市| 桃园市| 聊城市| 临沧市| 平顶山市| 阿克陶县| 灵寿县| 池州市| 沧源| 克东县| 赤城县| 商河县| 蓬溪县| 兰州市| 隆化县| 明星| 焦作市| 壤塘县| 喀什市| 繁峙县| 高雄市| 霍林郭勒市| 天全县| 弥勒县| 兴宁市| 宁德市| 沂源县| 定陶县| 阳谷县| 涟水县| 南安市| 青田县| 泰兴市| 郎溪县| 兰坪| 阳东县|