天問一號降落火星,中華民族關于浩瀚蒼穹的探索又遠了一程。在這值得舉國歡慶的時刻,過往關于火星文的種種科幻想象又更近了一步。
那么,假如火星文真的存在,在現有的技術條件下,我們該怎么解讀呢?
字典大法:查表若是對方對中華文明已早有研究,那么一本現成的字典是最好的工具。
比如地球語言中,中文英文的互譯,很大程度上便是依賴字典。譬如“Mars”:
通過字典,即使沒見過這個詞,其中含義也可以一覽無余。
這種策略在電信編碼方面用得更加普遍。比如UTF8編碼。UTF8編碼可以理解為計算機所說的中英文,它將漢字轉換為特定的二進制,然后通過查表進行還原。在諜戰中大顯身手的摩斯碼則是聲音表達的中文,每個長音和短音及其組合,都有對應的意思。
這方面近來最廣為人知的創作,恐怕還是《長安十二時辰》中的望樓。這部優秀的作品創造了一組燈光傳訊密碼,實現了用光來講述的中文。
這種方法也是計算機領域最容易實現的方法。從詞典,便攜電子辭典,到各類劃詞翻譯設備,基于字典的方法已為文化溝通交流提供了許多便利。
猜詞:結合上下文進行推斷如果這個詞匯字典里沒有,又該怎么辦呢?
即使是閱讀中文,也經常會遇到新的詞匯,詞典可能尚未收錄?;鹦俏呐c流行語便是例子。
先說火星文。在真正登上火星以前,我們把看不懂的文字稱為火星文。其實它也是網絡流行文化的一種?;鹦俏拈L得奇特,直接查字典未必能夠得到解答,比如:
砹吖,伱ぬ(哎呀,你好)
火星文中的幾個字都不是正確的字,甚至混有其他符號,但是通過形近和同音的聯想,我們還是能夠猜出這句話本來的意思。
對程序而言,它可以內置一個字典,然后搜索出與現有的文字形近又音近的詞匯,完成這項工作。比起直接查字典,難度只能說是略有提升。
結合語境猜測則是更高級的任務。比如外來詞,酷,它是英文cool的翻譯。
酷的原意是殘忍,程度深;但是在新時代的語境下,它使用的句子發生了變化。如果能收集到大量的文本對比,程序就會發現,原本“這件事讓人很想試試“,”讓人覺得很好“,之類的表述,變成了”這件事很酷“。通過附近的詞匯,程序可以大概推斷出這個詞的意思,這便是一類基于概率的翻譯思路。
完全破譯:多維空間上的抽象計算如果完全沒有信息,是一個全新的文字,收集到的資料又少,那才是真正的考驗。
現有的文字系統有表音和表意兩類;拿到一份古文字,首先要確定它是表音還是表意;這點可以通過觀察符號的數量,做大致的推測。一般表音的符號數要低于表意的。
然后通過符號組合出現在一起的概率,可以大致劃分出幾個詞匯;這一步與之前基于概率的思路類似。
富有知識的古文字專家,在這一步后就會根據重點詞匯的形式,結合自己所知的語言,對文字的組成進行猜測,比如哪些符號代表哪些音節,再依次破譯。
這一步以算法的語言來說,便是尋找【詞匯間對應的連結關系】。假設有n個符號,那么它組成一個長度為a的句子,便有a^n種可能。通過現有的語料,我們能統計出經常出現的那些可能;同樣,對另一種語言,我們也能做類似的統計;如果兩種語言有著類似的關系,比如都是表音或者都是表意,他們之間能對應的詞匯 應該也有一個類似的【統計關系】。通過對這種關系的描述,我們便能得到一對一的翻譯。
利用這種方法,計算機學家已經在Linear-B數據集上進行了嘗試,準確率達到了67.3%。
如果有真正的火星文,想必按照現有的科學技術,理解他們也并非不可能;關鍵在于探索未知的意愿與開放的心態。接納未知,探索未知,在航空器走向深邃的同時,我們的認知也才能同樣走向深刻。
本文發布于:2023-02-28 20:56:00,感謝您對本站的認可!
本文鏈接:http://m.newhan.cn/zhishi/a/167771022194524.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:轉換火星文(文字轉換器在線轉換火星文).doc
本文 PDF 下載地址:轉換火星文(文字轉換器在線轉換火星文).pdf
| 留言與評論(共有 0 條評論) |