前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機翻了一遍（見Fluent理論文檔中文版V1及Fluent UserGuide中文版）。后臺有道友問使用了哪些大模型。基于好東西不能藏私的指導思想，這里就來逐個介紹一下。

1 文檔本地化

第一步工作是將文檔轉化為本地markdown格式。這里有兩種方式：

數學公式非常多的文檔。比如Theory Guide，里面有大量的數學公式需要轉化成latex格式，一個個的識別肯定不太現實。這里使用的是Doc2x(官網地址：https://doc2x.noedgeai.com/)，不過這貨現在收費了，1000頁文檔需要11塊。公式識別效果還不錯，不過對于文本格式（如加粗、斜體等）的識別效果不佳。非常適合于大量公式需要處理的文檔。如果不想花錢，開源的話也可以選擇使用Marker（地址：https://github.com/VikParuchuri/marker）、MinerU（地址：https://github.com/opendatalab/MinerU）或pymupdf4llm（官網地址：https://pypi.org/project/pymupdf4llm/）等。不過開源程序在應付復雜文檔時可能會效果不佳。
文本格式比較多的文檔。如User Guide。文檔中包含有大量的格式樣式（加粗、斜體、縮進、列表、表格等）。這類文檔使用上面的工具效果都很差。一般情況下可以打開網頁版，然后直接將頁面內容拷貝到markdown編輯器（如typora、obsidian等）中，可以完整保留原文格式。

2 文檔翻譯及潤色

現階段我使用的是大語言模型進行翻譯。主要是考慮專業術語翻譯和后期的文本潤色。目前大語言模型對專業術語的識別效果還是挺不錯的，而且可以讀取整段文本進行翻譯，這與傳統的逐句翻譯模式不同。

目前主要使用的是國產大模型qwen2.5-72B與deepseek。其中qwen2.5-72B主要用于翻譯，而deepseek則主要用于潤色，總體上來看效果還是挺不錯的。使用過程中個人感覺就翻譯效果來說千問商業大模型（包括turbo、pro和max版）實際效果遠不如其開源的72B版本，而deepseek的中文表達能力個人覺得相當好，很符合本人的語言表達習慣。

qwen2.5-72B與deepseek均使用的是硅基流動（地址：https://siliconflow.cn/zh-cn/）提供的api。

為了方便，在使用過程中還用到了一個名為Cherry Studio（地址：https://cherry-ai.com/）的前端工具，此工具支持定義智能體，因此只需要將智能體定義后，后續就能夠將待翻譯的markdown文件扔進去自行翻譯和潤色了。

3 文檔校對

這個目前沒有那么好的工具，只能靠人工了。

（完）

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

1 文檔本地化

2 文檔翻譯及潤色

3 文檔校對