Dear Haodoo Community:
Recently, Haodoo was contacted by the TAIDE team for access to our collection of e-books. Although this may not appear newsworthy, this inquiry carries a deeper meaning. Allow me to elaborate further.
If you have yet to hear, TAIDE is the Traditional Chinese-based AI system being developed in Taiwan. Developing an AI system requires a lot of data to train the model before the system can be helpful. As you read the email chain below, the TAIDE team sought permission to use Haodoo’s book collection for training TAIDE.
With the support of its community, Haodoo has been very fortunate to accumulate some high-quality e-books based on traditional Chinese. I have always been in awe of what Dr. Jou and the community of volunteers have achieved. Contributing to TAIDE’s development is a further testament to the quality work that Haodoo has always insisted upon from day one.
Personally speaking, there is another meaning for the TAIDE and Haodoo collaboration. When a computer absorbs and stores information, it remembers. In other words, when TAIDE absorbs Haodoo’s books into its system, the data stays in TAIDE forever. It symbolizes that Dr. Jou’s work will live on and forever benefit the people who use TAIDE.
I am excited to share this news with the Haodoo community. To those volunteers who tirelessly contribute e-books and edit requests, I salute your effort. Your generosity will fuel the next generation of AI systems and benefit many future generations.
David Lowe
好讀站長
———-
On Mon, Feb 5, 2024 at 1:16 AM <support@haodoo.net> wrote:
主旨:「TAIDE」與「好讀」合作提案邀請函
來信者:*****
親愛的「好讀」團隊您好:
我是*****,目前於陽明交通大學攻讀資訊科學博士學位。同時,我也是政府資助的大型語言模型專案「TAIDE」的一員。本專案旨在為台灣中小企業、公共機構以及教育界的教師與學生們提供支援,讓他們能夠透過我們開發的人工智慧助理「TAIDE」,改善內部溝通、協調工作,甚至作為偏鄉孩童的智慧型家教。
儘管時下最流行的 GPT4 能力出眾,但我們注意到他所使用的「中文」仍然不夠自然,也不夠貼近台灣人的使用習慣,甚至偶爾會使用「視頻」、「宇航員」等中國習慣用語回覆。而中國大陸在近幾年也陸續推出了許多能力強大的語言模型,我們非常擔心這樣會導致簡體中文霸權的人工智慧洪流下,台灣人慣用的正體中文被邊緣化或遺忘。
雖然目前「TAIDE」在閒聊、翻譯和摘要撰寫方面的表現出色,但我們發現他所使用的文字仍然缺乏自然感,與「台灣人的中文」還是有所落差。我們希望能進一步提升他的中文水準,使之更貼近台灣的語言習慣。
在尋求解決方案的過程中,我們發現了貴站「好讀」。貴站對於正體中文電子書的堅持,讓我們看到了解決我們面臨問題的希望。「網路上能找到很多中文電子書,只是簡體居多且錯誤百出,只有好讀堅持正體,只有好讀不斷勘誤更新。」,這正巧與我們面臨的問題息息相關,希望能藉由貴站豐富寶貴的資源,讓這個「台灣人的AI」能夠在國際上展露頭角,讓世界看到什麼是「台灣人的中文」。
因此,我們非常希望能夠與貴站建立合作關係,取得並利用貴站精心整理的資源,以豐富「TAIDE」的語料庫,進一步提升其對台灣中文的掌握與應用能力。我相信,「TAIDE」計畫也將樂於對貴站提供相應的支持與合作機會。
期待貴站的回覆,並期望能夠聽到好消息。再次感謝您撥冗閱讀此信。
祝 順心,
*****
TAIDE 專案團隊成員
———-
On Feb 6, 2024 at 12:35 AM +0800, Haodoo Support <support@haodoo.net>, wrote:
Hello *****,您好:
我是 David,好讀的站長,我的中文名字叫羅致,非常感謝你們的邀請。
當初周博士創立好讀的時候,就是希望許多人能夠也有機會來分享其他讀友製書的成果,所以我們不介意你們用好讀的書來訓練你們的 LLM。
所有好讀的書可以從 GitHub 上下載 https://github.com/haodoo/haodoo-classic。EPUB 版本會在 PDB 的檔案夾內。
希望這是一個夠方便的起點,如果還有其它什麼需要,就請隨時聯絡。
祝你們馬到成功。
David
———-
Hi David,您好:
首先謝謝您迅速且熱心的回覆。得知是站長您親自回信,並且對我們的提議持開放態度,我感到非常的激勵和感激。
周博士創立好讀的初衷與 TAIDE 推動知識共享和技術進步的理念不謀而合。您提供的 GitHub 對我們來說是一個非常寶貴的資源,我們將會妥善利用這些資料來進一步優化和提升 TAIDE 的能力。
您對於見識 TAIDE 的興趣,我們深感榮幸,我們非常願意在適當的時機向您和好讀的團隊展示 TAIDE 的功能和成果。我們相信,透過雙方的合作和交流,不僅能夠豐富TAIDE的語料庫,也能進一步推動正體中文在人工智慧領域的應用和發展。
再次感謝您的支持和慷慨分享。我們期待未來能有更多的合作機會,並共同為推動科技與文化的進步作出貢獻。如果有任何進一步的討論或需要,請隨時聯繫我,也歡迎您有空可以來看看我們的官網 https://taide.tw/index/about/project-overview
祝 順心,
*****
TAIDE 專案團隊成員
Note: ***** redacted for privacy reasons.

