10年專業(yè)筆譯品牌?
10年數(shù)萬場(chǎng)口譯
專業(yè)留學(xué)移民翻譯
多語言網(wǎng)站翻譯
89種語言服務(wù)
據(jù)譯雅馨翻譯公司了解到,話語翻譯技術(shù)研究是國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目(973項(xiàng)目)“圖象、語音、自然語言理解與知識(shí)挖掘”的子課題之一(編號(hào):G1998030504-01)。在該項(xiàng)目的資助下,課題組在數(shù)據(jù)資源建設(shè)、翻譯方法研究、實(shí)驗(yàn)系統(tǒng)開發(fā)和國(guó)際合作等方面均確立若干主要的研究成果。
1 數(shù)據(jù)資源建設(shè)
大規(guī)模真實(shí)語料和數(shù)據(jù)是口語信息處理的基礎(chǔ)。但國(guó)內(nèi)真實(shí)口語語料資源十分缺乏,大規(guī)模的雙語對(duì)照口語語料尤其匱乏。因此,我們把基礎(chǔ)語料資源的建設(shè)作為一項(xiàng)首要的工作,有針對(duì)性地進(jìn)行了口語語料、多語對(duì)照語料的收集和處理,建立了一個(gè)現(xiàn)場(chǎng)收錄的自然口語語料庫(kù)及一個(gè)通用的口語語料庫(kù),并建立了多個(gè)大規(guī)模多語口語對(duì)照語料庫(kù)及專用語料庫(kù)。主要包括:
(1)收集旅游咨詢真實(shí)場(chǎng)景下的口語對(duì)話約90段,3000個(gè)對(duì)自然口語句,并在此基礎(chǔ)上對(duì)全部口語語料進(jìn)行了標(biāo)注和分析。
(2)與國(guó)際語音翻譯聯(lián)盟(C-STAR)成員聯(lián)合收集旅行過程中最常用的中-英-日三語對(duì)照句子各2萬多句,其中每個(gè)中文語句又由3個(gè)意義相近的句子構(gòu)成,約7萬句的規(guī)模。另外,與C-STAR成員聯(lián)合收集日常多領(lǐng)域多語言口語對(duì)照語句(每種語言)約20萬句。
(3)與國(guó)外有關(guān)研究機(jī)構(gòu)聯(lián)合收錄中國(guó)人名地名及機(jī)構(gòu)名約300多萬個(gè),經(jīng)過分析處理后,用于識(shí)別人名地名、及機(jī)構(gòu)名稱。
2 基于多策略的口語翻譯方法
在口語翻譯方法研究中,我們先后提出了基于靈活模板的漢英口語直接翻譯方法、交互式口語翻譯方法,以及多翻譯引擎的串行工作策略等。這些新方法在我們的實(shí)驗(yàn)系統(tǒng)中均取得了初步的成功。
基于靈活模板的直接翻譯方法是多引擎口語翻譯系統(tǒng)中采用的基本翻譯策略,使翻譯機(jī)制與語言保持較好的相對(duì)獨(dú)立性,便于實(shí)現(xiàn)語言擴(kuò)充和系統(tǒng)向多領(lǐng)域移植。我們還提出了靈活的“柔性”翻譯模板匹配策略,既允許模板中出現(xiàn)關(guān)鍵詞和詞性變量,也允許多個(gè)候選關(guān)鍵詞以邏輯“或”的形式出現(xiàn),還允許跳過任意詞匯,并且語義特征可作為限制條件,目標(biāo)語言生成也采用了靈活的處理方式。這個(gè)策略有效地克服了一般基于模板的翻譯方法對(duì)于翻譯句型缺乏靈活性、翻譯結(jié)果過于死板的弱點(diǎn)。測(cè)試結(jié)果表明基于模板的翻譯器可以對(duì)完全正確的文本輸入的語句得到70%以上的正確翻譯結(jié)果,對(duì)于語音識(shí)別模塊給出的前10個(gè)候選結(jié)果,可以獲得68%的翻譯正確率。
根據(jù)前面的分析,目前的語音翻譯實(shí)驗(yàn)系統(tǒng)主要存在魯棒性差、翻譯正確率低的問題,其主要原因一方面源自于語音識(shí)別器有限的正確率和魯棒性,另一方面翻譯系統(tǒng)缺乏人機(jī)交互的能力,因此,我們提出了基于對(duì)話管理的交互式語音翻譯方法。在這種翻譯方法中,綜合了基于模板的翻譯方法、基于中間語義表示(IF)的翻譯方法、基于統(tǒng)計(jì)的翻譯方法和基于對(duì)話管理引導(dǎo)的槽填充翻譯模式等多種翻譯方法[Zong, 2002a],該方法在理論上體現(xiàn)了人充當(dāng)翻譯角色時(shí)的基本工作方式和思維過程。
3 實(shí)驗(yàn)系統(tǒng)開發(fā)
基于上述工作基礎(chǔ),我們先后開發(fā)了多個(gè)口語翻譯實(shí)驗(yàn)系統(tǒng),其中包括上面提到的LodeStar中日、中英語音翻譯實(shí)驗(yàn)系統(tǒng),基于C-STAR III翻譯平臺(tái)的中英雙向電話語音翻譯實(shí)驗(yàn)系統(tǒng)和與韓國(guó)電子通信研究院(ETRI)聯(lián)合開發(fā)的基于C-STAR III翻譯框架的中韓雙向電話語音翻譯實(shí)驗(yàn)系統(tǒng)。中韓雙向電話語音翻譯實(shí)驗(yàn)系統(tǒng)建立在旅館預(yù)定領(lǐng)域,可識(shí)別韓語詞匯約16000個(gè),中文詞匯約12000個(gè),系統(tǒng)可以約2到3倍的實(shí)時(shí)速度運(yùn)行。該系統(tǒng)于2002年3月在C-STAR III國(guó)際口語翻譯聯(lián)盟首次在我國(guó)召開的C-STAR研討會(huì)上成功地演示。
值得提及的是,目前自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室正與北京首都信息集團(tuán)公司等多家單位聯(lián)合開展面向2008年北京奧運(yùn)會(huì)的多語言網(wǎng)絡(luò)信息服務(wù)系統(tǒng)的聯(lián)合攻關(guān)研究,其中,語音翻譯是重要的技術(shù)模塊之一。
4 國(guó)際合作
在本項(xiàng)目的資助下,口語翻譯研究在國(guó)際合作方面取得了重要進(jìn)展,自動(dòng)化所作為核心成員參與了國(guó)際七國(guó)語言電話語音自然口語互譯合作計(jì)劃,與國(guó)際上本研究領(lǐng)域最具實(shí)力和水平的大學(xué)和研究所共同合作。同時(shí)與日本ATR、韓國(guó)ETRI建立了長(zhǎng)期的合作關(guān)系,與日本松下公司實(shí)現(xiàn)了富有成效的合作開發(fā)聯(lián)合實(shí)驗(yàn);與國(guó)際著名的法國(guó)機(jī)器翻譯研究所(GETA, IMAG)建立了良好的合作關(guān)系,雙方聯(lián)合開展中法口語翻譯技術(shù)的研究,雙方曾多次互派訪問學(xué)者,并就雙邊聯(lián)合培養(yǎng)碩士生、博士生一事達(dá)成協(xié)議;與Nokia中國(guó)研發(fā)中心建立了良好的合作關(guān)系,雙方就口語翻譯中的若干基礎(chǔ)問題,包括語料收集,語音識(shí)別等方面,聯(lián)合攻關(guān),并在已有的工作基礎(chǔ)上聯(lián)合參與了歐共體項(xiàng)目“面向多語種口語翻譯的詞匯處理(LC-STAR)”