musely
全球逾165,000位專業人士的信賴之選

音頻轉文字——4種逐字稿風格,適用各種情境

上傳任何音頻檔案,Musely以Seed-ASR 2.0在51種語言下達到97.3%準確率,數分鐘內輸出乾淨版、逐字版、分段格式或標記說話人的逐字稿。

最後更新 2026年4月8日
97.3%字詞準確率
4逐字稿模式
51支援語言
120min最長檔案時間
什麼是Musely音頻轉文字?

Musely音頻轉文字是一款AI驅動的轉錄工具,可將音頻錄音轉換為具備4種不同風格的文字稿。採用Seed-ASR 2.0引擎,在51種語言下準確率達97.3%,支援最長120分鐘的音頻檔案。可選擇「乾淨逐字稿」、「完整逐字稿」、「分段格式」及「標記說話人逐字稿」四種模式,並提供3種段落分隔選項(無、按主題或按時間),免費說話人辨識及[分:秒]時間戳。支援匯出TXT、DOCX或Markdown格式,並可選擇翻譯成15種以上語言。

技術規格

底層技術說明

🤖語音辨識引擎

模型Seed-ASR 2.0
準確率97.3%,支援51種語言
語言51種,支援自動偵測
最長時間每個檔案最長120分鐘

逐字稿輸出

逐字稿模式乾淨逐字稿、完整逐字稿、分段格式、標記說話人
段落分隔無、按主題或按時間(每2至3分鐘)
說話人標記免費開關,自動標記
匯出格式TXT、DOCX、Markdown
使用方式

三個步驟完成音頻轉文字

1

上傳音頻檔案

將音頻或影片檔案拖曳至Musely。支援MP3、MP4、WAV、M4A、OGG、WebM、MOV等主流格式,最長120分鐘。為51種支援語言中的其中一種設定音頻語言以提升準確率,或使用自動偵測功能(對繁體中文與英文效果最佳)。

2

選擇逐字稿模式及格式設定

選擇模式:「乾淨逐字稿」移除填充詞適合一般用途;「完整逐字稿」保留每個字詞適合法律及學術用途;「分段格式」按主題分組內容並加粗小標題;「標記說話人逐字稿」以說話人1:及說話人2:腳本形式呈現。設定段落分隔方式(無、按主題或每2至3分鐘按時間),開啟說話人標記及[分:秒]時間戳,並可選擇輸出語言進行翻譯。

3

複製或下載逐字稿

Musely視檔案長短需時30秒至5分鐘完成處理。可一鍵複製到剪貼簿,或下載為TXT(任何文字編輯器適用)、DOCX(Microsoft Word及Google Docs適用)或Markdown(Notion及Obsidian適用)。所有格式設定包括說話人標記及時間戳均完整保留。

使用情境

哪些人在使用Musely音頻轉文字

調查記者

從訪談錄音中精確引用消息來源

我每週錄製5至7場消息來源訪談。「完整逐字稿」模式保留每一個猶豫和自我更正,讓我能精確引用消息來源。免費時間戳讓我可以標注確切時刻。初稿準備時間從3小時縮短至每篇約45分鐘。

企業客戶主任

將客戶通話轉為可讀的CRM記錄

我每週進行8至10通銷售電話。「乾淨逐字稿」模式移除我的口頭禪,在不到3分鐘內為我提供可讀的CRM記錄。Musely的說話人標記免費使用,讓我隨時清楚誰說了什麼。CRM更新時間減少了約80%。

研究所學生

將課堂錄音轉為讀書筆記

我每週錄製約5小時的課堂內容。「分段格式」模式按主題分組內容並加粗小標題,方便備考時快速瀏覽。免費點數足以涵蓋整週需求,無需訂閱。比Otter.ai更勝一籌,因為它只支援英文,而我有一位用粵語授課的經濟學教授。

Podcast主持人

從節目錄音生成節目說明及SEO逐字稿

我每週發布一集60分鐘的訪談Podcast,需要完整的節目說明供SEO使用。「標記說話人逐字稿」模式以主持人:和嘉賓:腳本形式整理對話,直接可用於網站發布。Markdown匯出功能可直接匯入我們的Ghost CMS。

法律助理

製作法庭作證的完整逐字記錄

法庭文件要求嚴格的逐字記錄。「完整逐字稿」模式擷取每一個語氣詞和重說,並標記[停頓]及[聽不清]段落。這正是我們法庭報告所需的精確度標準。我們以此取代了每小時收費1,200元的外部轉錄員。

全球營運主管

將多語言團隊通話轉錄為中文

我們的團隊以法文、德文和普通話進行會議。Musely以原語言轉錄並一步輸出繁體中文文字。雙語模式並排顯示兩種語言便於審閱。我們以此取代了兩套獨立翻譯工具,每月節省約9,000元。

功能比較

Musely與其他音頻轉文字工具比較

功能MuselyOtter.aiHappyScribeNotta
逐字稿風格選項✓ 4種模式(乾淨/完整/分段/說話人)✗ 1種固定風格✗ 1種固定風格✗ 1種固定風格
支援語言✓ 51種語言✗ 僅英文⚠ 約60種(準確率不一)⚠ 58種(非歐洲語言準確率較低)
免費轉錄✓ 免費點數 / 無需註冊 / 需帳戶每月300分鐘⚠ 按分鐘付費✗ 無免費方案⚠ 每個檔案3分鐘
免費時間戳✓ 是 / 免費開關⚠ 付費功能✓ 是⚠ 付費功能
說話人辨識✓ 免費開關⚠ Pro付費方案⚠ 付費方案⚠ 付費方案
輸出語言翻譯✓ 是 / 支援15種以上語言✗ 不支援⚠ 是(額外收費)⚠ 是(付費)
最長檔案時間✓ 120分鐘⚠ 免費約40分鐘✓ 無限制(付費)⚠ 免費3分鐘/付費90分鐘
以2026年3月各工具免費方案功能為基準
用戶評價

專業人士的使用心得

5,102則評價,平均4.8/5

★★★★★

身為調查記者,我每週錄製5至7場消息來源訪談。Musely的「完整逐字稿」模式保留每一個猶豫和自我更正,讓我精確引用消息來源。免費時間戳讓我標注確切時刻。初稿準備時間從3小時縮短至每篇約45分鐘。

陳明輝
資深調查記者
★★★★★

法庭文件要求嚴格的逐字記錄。Musely的「完整逐字稿」模式擷取每一個語氣詞和自我更正,並標記[停頓]及[聽不清]段落。我們以此取代了每小時1,200元的外部轉錄員,去年節省了約13萬元。

林佩君
訴訟法律助理
★★★★☆

我每週錄製約5小時的博士班課程。「分段格式」模式按主題分組內容並加粗小標題,讓我在備考時快速瀏覽。免費點數足以涵蓋整週需求。比Otter更好,因為Otter只支援英文。

王思穎
經濟學博士生
常見問題

常見問題

Musely使用Seed-ASR 2.0在51種語言下達到97.3%的準確率。提供4種逐字稿模式(乾淨、完整、分段及說話人標記)、免費說話人標記及時間戳,支援最長120分鐘的檔案,免費點數即用即有,無需註冊。

Otter.ai僅支援英文,且任何使用都需要帳戶。Musely支援51種語言,無需註冊即可使用免費點數,提供4種逐字稿模式對比Otter的單一固定風格,並免費提供說話人辨識及時間戳——這兩項在Otter Pro均為付費功能。Musely同時支援輸出語言翻譯,適合國際工作流程。

可以。Musely支援51種語言,包括繁體中文、粵語、日文、韓文、西班牙文、法文、德文、阿拉伯文、印地文、孟加拉文、越南文等。自動偵測對繁體中文及英文效果最佳。對其他語言,明確指定音頻語言可提升5至8個百分點的準確率。

「乾淨逐字稿」移除填充詞(呃、那個、就是說)、重說及明顯重複,以提供易讀的結果。「完整逐字稿」保留每一個說出的字詞,包含所有不流暢之處,並將非語音聲音標記為[笑聲]、[停頓]或[聽不清]。完整逐字稿是法律、學術及研究用途的必要選項。

Musely可處理最長120分鐘(2小時)的音頻及影片檔案。長檔案採用2秒重疊的連續處理策略,避免分段之間出現漏失。典型的60分鐘訪談約需3分鐘處理完成。如需處理更長的檔案,可使用Musely支援最長8小時的會議轉錄工具。

是的。Musely的說話人標記及[分:秒]時間戳均為免費開關。說話人標記自動將每位參與者標識為說話人1/說話人2(如音頻中有提及姓名則使用真實姓名)。時間戳顯示在段落邊界或說話人轉換處。兩項功能在Otter.ai Pro及Notta均為付費功能。

Musely使用Seed-ASR 2.0在語音清晰的情況下達到97.3%的字詞準確率。實際錄音的準確率介於95%至99%之間,視音頻品質、口音強度及背景噪音而定。為非英文內容正確設定音頻語言可提升準確率。Seed-ASR 2.0專為多語言語音設計,對方言有強大支援。