Skip to content

Latest commit

 

History

History
629 lines (391 loc) · 20.4 KB

updates.md

File metadata and controls

629 lines (391 loc) · 20.4 KB
title layout nav_order
更新日志
default
71
点此展开目录 {: .text-delta } 1. TOC {:toc}

宇浩一代单字拆分校正历史

2023年5月9日

修正拆分:

  • 叀:視爲「車」的附屬根,同「專」上。影響大字集的字如右:叀𠵤𡞍𡲡𢮨𣓧𣚢𣶣𤴛𥮔𦁆𦑐𧈌𭤈

2023年5月7日

「发」字由〔<逆折>夂丶〕拆爲〔𠂈又丶〕,卽視「⺃丿」爲字根(卽「𠂈」出頭),由「屮」統攝。

原因:

  • 「⺃丿」字根(卽「𠂈」「丩」出頭)已經存在於部分漢字中,如:𠈷𦭺𩑿𦱠𠬞。
  • 「发」下爲「丿又」,不爲「夂」。雖可視爲「夂」的變體,但不够直觀。
  • 「发」「犮」爲部首的字拆分更加統一。
  • 「夂」上穿筆畫的字,現於宇浩輸入法中,基本都拆出「又」。如:「緩」不拆〔糹爪二夂〕而拆〔糹爪干又〕。
  • 由於「发」是簡化漢字,故而此更改主要影響的是 GB2312 字集。
  • 更改後,「发」可設爲 Xb 上的二簡字,避開了高頻「收」字。

修正其他含此字根的漢字拆分:

  • 𠈷,亻田丩
  • 𠬞,丩又
  • 𦭺,艹丩丩丩
  • 𩑿,䒑丩貝
  • 𦱠,屮屮丩屮屮

本次更改影响:

  • GB2312 字集内 4 字全碼:发废拨泼。
  • GBK 字集内其他 3 字全碼:袯酦䥽。
  • CJK 擴展區 16 字全碼。

爲方便過渡,增設「发废拨泼」四字容錯碼。

2023年5月4日

将「𮓡」头认定为「虍」的异体。一共影响全字集20个字:𭄏𭅍𭇢𭞐𭞥𭟾𭸣𭸮𭾐𮉗𮎗𮓘𮓙𮓜𮓠𮓡𮓥𮙟𮬗𱮫

修正部分简码错误。

2023年5月2日

修正拆分:

  • 𠈷,亻田𠃋丨
  • 𠬞,𠃋丿又
  • 𦭺,艹𠃋丿𠃋丿𠃋丿
  • 𩑿,䒑𠃋丿貝
  • 𦱠,屮屮𠃋丿屮屮

其他修正。

本次更改影响大字集 12 字。

2023年4月29日

修正拆分:

  • 「丷厂」改拆「䒑丿」。
  • 「肀」偏旁校正。

本次更改影响 GB2312 字集 1 字,影响大字集 22 字。

2023年4月28日

修正拆分:

  • 躖䏋
  • 「𦍎」为偏旁的字。

本次更改影响 GBK 字集 10 字,影响大字集 41 字。

2023年4月26日

修正拆分:

  • 𣑍𤓑𮠊𦦴:四字的頭部視爲「冎」的附屬根
  • 𡆵𠀌𠚒
  • 其他修正

2023年4月19日

修正拆分:「庸」拆为「广{聿上}月」,而不是「广彐月丨」,因为字根最少。

本次更改影响GB2312字集5字,GBK字集9字。造成常用字GB2312内一组重码:「庸」「朔」。

2023年4月18日

修正拆分:「那」拆为「𠃌キ阝」,而不是「刀二阝」,因为符合笔顺。

2023年4月14日

修正拆分:「耒」拆为「丰八」,而不是「一未」,因为取大。

本次更改大约影响GBK字集25字,全字集230字。

2023年4月11日

修正拆分:

  • 「朱」拆为「牛八」,而不是「丿未」,因为取大。
  • 「夬」拆为「ユ人」,而不是「𠃌大」,因为取大。
  • 「曹」拆为「𠀎冂日」,而不是「卄日日」,因为取大。
  • 「釜」拆为「八乂干䒑」,而不是「八乂王丷」,因为完全符合笔顺。
  • 「㑒」拆为「合人」。

本次更改在GB2312字集中大约影响30字。

2023年4月10日

修正拆分:

  • 「別」类字:拆为「口勹刂」,而不是「口⺈刂」。大约影响8字。
  • 「覽」的右上方:拆为「{竹右}日」,而不是「{竹右}丶日」。大约影响18字。
  • 「旮」:拆为「九日」,而不是「九曰」。

2023年4月9日

修正一组拆分:

  • 「爰」类字:拆为「爪干又」,因为连而不交。

2023年4月5日

修正一組拆分,影響 GBK 中的兩個漢字:

  • 「沒」 IYbu - IWbu
  • 「歿」 DYbu - DWbu

2023年3月24日

修正CJK-B區,「辶」「廴」「凵」相關部首的拆分錯誤。

2023年3月23日

修正「带」「监」等相关字形的拆分。

宇浩一代更新日志

2023年5月12日

增加方案「書同文」,方案文件名 yuhao_tradition_tw。以臺灣傳統漢字字形爲標準設置簡碼。例如:

  • I 的一簡字設「沒」而非「没」。
  • OW 上的二簡字設「為」。
  • SH 上的二簡字設「著」。

2023年5月9日

词库码表结构优化,分为核心词库、增广词库、成语诗词词库三部分,各自分繁简。核心词库对应了宇浩一级词库,增广词库对应了宇浩二级词库中的非成语诗词。名称如下:

  • yuhao.words
  • yuhao.words_extended
  • yuhao.words_literature
  • yuhao_tradition.words
  • yuhao_tradition.words_extended
  • yuhao_tradition.words_literature

2023年5月5日

词库码表结构优化,现将词库分为核心和增广词库,各自分为繁简。核心词库对应了宇浩一级词库,增广词库对应了宇浩二级词库。名称如下:

  • yuhao.words
  • yuhao.words_extended
  • yuhao_tradition.words
  • yuhao_tradition.words_extended

2023年5月4日

增加 CJK 扩展 I 区的 603 个汉字。字形来源:https://www.unicode.org/L2/L2023/23114-unc-extension-i.pdf

同步更新拆分表和在线查询系统。

2023年4月20日

由于字集过滤插件表现良好,故而不需要一个单独的新手方案和词库,现删除新手方案,只保留繁体简码和简体简码两个方案。

2023年4月19日

优化常用字集过滤插件。使用集合法重写代码,大幅度提升运行效率,不再有卡顿现象。

更新反查码表。

修正拆分错误。

2023年4月18日

根据反馈,作出以下调整:

其一,「疒」字根的小码由 Pv 改至 Pb。目的:不让低频「疽」抢占三简位。影响:凡「疒」头两根字,原本为三码出字,今一律加一补位码 b

其二,增加字根「聿上」(彐丨),为「彐」的附属根。影响「肃」「盡」相关字形,包括但不限于:

  • 肃,改拆「{聿上}{介下}八」。
  • 肅,改拆「{聿上}片爿一」。
  • 盡,改拆「{聿上}一灬皿」。
  • 唐,改拆「广{聿上}口」。

其三,更改「爿」字根小碼,由 Xg 改爲 Xp,同「片」的 Tp 一致。

其四,修正拆分。「那」拆为「𠃌キ阝」,而不是「刀二阝」,因为符合笔顺。受此影响,B 键一简改为「对」,「那」设为二简 Va

此次更新影响 GB2312 拆分 16个,编码 33 个。影响 GBK 编码 73 个。

优化反查系统,使繁简汉字同权数,便于繁简通打。

2023年4月17日

更改「爲下」字根的码位:由 Yw 改至 Ww。目的是避让「你」字,将高频「爲」字设为二简 EW。此次更新只影响繁体。影响GBK拆分20个,影响大字集拆分约50个。重码不变。

2023年4月14日

全面更新官网设计,优化美工,允许站内搜索。

2023年4月13日

更新在线拆分系统:

  • 除单字外,现在还允许用户查询词语和句子。拆分系统会按行显示所有汉字的拆分。
  • 优化美工。

2023年4月12日

对「古」「合」字根进行解释:

  • 「古」下的「口」中如果包含完整的笔画,应该拆如「十囗」。例如:「鄙」左下方的「口」中有「口」,故而应该拆成「口十囗口阝」。
  • 「合」下的「口」中如果包含完整的笔画,应该拆如「人一囗」。例如:「會」中間的「口」中有「小」,故而应该拆成「人一𫩏丷日」。

此更改影响 GB2312 字集中 1 个汉字「鄙」,影响 GBK 字集另外 35 个汉字,影响大字集 54 个汉字。

优化部分简码。

2023年4月11日

校正部分拆分错误。更新在线字根练习。

增加常用字练习。更新1-50汉字。

更新码表。

2023年4月10日

校正部分拆分错误,更新字根图、在线字根练习。

更新码表。

2023年4月8日

陆续受到了不少用户反馈,对以下几点表达出关切:

  • 折区相似字形的字根被分配在不同的大码上,不适合新人快速学习。比如:之辶、也乜、子了、矛予、己已、巴巳、幺厶纟。
  • 右手无名指的频率高于右手中指。
  • 「高」「㗊」等字根作用不大,可以移除。
  • 对部分拆分规则进行优化,兼顾拆字「逻辑性」和「直观性」。

因此,我对字根进行了如下调整:

删除字根:

相似字根合并大码:

  • 之辶同P:之 Ok - Pc
  • 也乜同C:「乜」转为「也」的附属根
  • 子了同V:子 Bi - Vk
  • 矛予同C:矛 Xo - Co
  • 己已同B:已 Vy - Bi
  • 巴巳同C:巳 Xs - Ck
  • 幺厶纟同V:幺 Co - Vo

其他大码调整:

  • 户:Oh - Ih
  • 𧘇:Wy - Ry

代表根转为附属根:

  • 「青头」从「士」:HHff
  • 「春头」从「夫」:Guff

为了降低字词动态重码、避让简码、优化手感,还作出了以下的小码调整:

  • Mq - Mi
  • Ym - Yv
  • Pu - Px
  • Yv - Yn
  • Xc - Xa
  • Rg - Rn
  • Ca - Cb
  • Vo - Vg
  • Ka - Kj
  • Sv - So
  • 𠂇 Su - Sv
  • Be - Bf
  • Gj - Gc
  • Sr - Se
  • Sj - Sr
  • Bv - Bs
  • Bh - Bv
  • Ku - Kp
  • Pe - Pw
  • Mv - Mu
  • Fn - Fa
  • Sa - Sq
  • Mj - Mv

对于拆分规则进行细化:

  • 「万」拆「一勹」:优化「拆分美观」规则,半包围结构不分拆。
  • 「二」「三」包夹其他字根,必须保证上下两横的独立性,且中间只有一个字根。

更新字根图,对小码进行颜色标注。凡小码正好为声母的,标注为蓝色;凡小码正好为韵母的,标注为褐色。

更新在线练习软件。

更新在线拆分查询。引入一栏「注释」,对某些比较容易混淆的拆分进行规则解释。

更新一、二级简码字。

更新 Rime 方案,将码表分拆为若干分码表,所有分码表都由主码表导入,便于用户开启或关闭。分码表如下:

  • 简码字词
  • 全码字
  • 一、二、三级词库
  • 特殊符号

重码分析:

  • GB2312:304到309
  • 国字常用:206到214
  • GBK:4937到4993
  • 动态重码简体、繁简混合都不变。繁体从0.15%上升到0.16%。

2023年4月4日

正式推出宇浩词库。该词库对词语和排序进行了优化,并分为若干词库文件,借此保障用户的自主选择权。分词库包括:

  • 宇浩一级简体词库:约50000个核心词语。推荐只使用该词库配合单字输入,以获得最佳体验。集成在主码表中。
  • 宇浩繁体词库:约30000个核心词语,包括台湾、香港、大陆古籍繁体三种字形。默认关闭。
  • 宇浩二级简体词库:约25000个词语,频率较低,建议只在手机上开启。默认关闭
  • 宇浩三级简体词库:约20000个词语,多为成语和古诗词,除非有特殊需求,否则不建议开启。默认关闭。

对二级简码词进行更新。

更新首页内容。

2023年4月3日

更新两个繁体字根码位,使繁体选重率和繁简选重率得以大幅下降,提高通打效率:

  • 馬 由 SmDm
  • 金 由 RnWj

调整简码字若干,简体方案中:

  • T 人 - 个
  • WJ 胆 - 金
  • RN 金 - 徜
  • LM 忠 - 吊
  • DE 故 - 斯
  • MK 贞 - 帽

繁体方案:

  • CS 媽 - 隨
  • SM 馬 - 夢
  • LS 嗎 - 器
  • LD 喫 - 嗎
  • RN 金 - 徜
  • WJ 腸 - 金
  • RS 錯 - 舉

在阿吉委员的帮助下,对二级简码词进行更新。

以下为本次更新前后重碼的数据比较:

方案 GB2312 通规一二级 国字常用 常用繁简 GBK 简体选重率 繁体选重率 繁简混合文本选重率
更新前 303 263 216 573 4964 0.05% 0.17% 0.19%
更新后 304 262 206 565 4933 0.05% 0.15% 0.17%

重绘字根键位图,使字根不从中间换行。

增加页面statistics,提供常见输入法的重码数据比较。

2023年4月2日

根据反馈,在不少平台上,没有生僻字屏蔽功能,导致全码状态下生僻字优先于常用词语,造成不便。基于这个问题,做出如下调整:

  • 除了 Rime 方案,其他所有码表,都将生僻字置后。
  • Rime 方案因为存在常用字优先 lua,故而不需要进行调整。
  • 更新大大和小小平台的免安装应用程序。

更新字体、拆分表、字根键位图。

2023年4月1日

更新了對以下輸入平臺的支持:

  • 微軟五筆(需要 WubiLex 導入)
  • fcitx5-Android

在QQ群中提供小小輸入法的外掛輸入模式。

更新了若干一、二級簡碼,避免簡碼重複。

更新了詞庫,增加詞語數量。

更新了字根表。

更新了主頁和教程。

2023年3月31日

增加繁體方案。該方案爲繁體輸入設置了簡碼和詞庫,名爲yuhao_tradition

根據反饋,對「點」的拆分作出規範:

  • 單點和捺在Od
  • 相重疊的兩點,卽「头」「冬」中的部分,同「二」Sr
  • 左對點「冫」和右對點「飞右」,同「二」Sr。故而「兆」拆爲「儿二二」。
  • 下對點「八」在Tb
  • 上對點「丷」在Uh
  • 所有三點都在Iv
  • 所有四點都在Uh

「为」「卵」等字的兩點不認定爲「兩點」,而認定爲兩個單點「丶」,這和「冬下」不同。

根據反饋,將「丽」下的一半,卽「冂丶」,認定爲「冂」的附屬根。「丽」拆作「一冂冂」,卽「一{冂丶同冂}{冂丶同冂}」。

根據反饋,離散的字根部件不宜被全包圍或半包圍分割。這一條主要影響的是大字集的拆分。

更新字根圖。

更新教程,增加若干新的内容,並且更正筆誤。

更新在線拆分系統,包括:

  • 使用宇浩字根字體顯示部分字根。
  • 增加一欄以顯示詳細的字根信息和代表根。
  • 增加一欄以顯示簡體方案的簡碼。
  • 增加一欄以顯示繁體方案的簡碼。

更新在線字根練習系統,部分字根用宇浩字根字體代替。

本次更新後,重碼數據不變。

2023年3月30日

根據反饋,調整若干二級簡碼,使得常用兩根字被一、二、三簡覆蓋。

根據反饋,增加常用字符過濾器中的常用漢字數量,全面覆蓋《通規》《國字常用》中的漢字。

調整部分小碼,增加左右互擊:

  • 「田」改爲Jt,取聲母t
  • 「山」改爲Js,取聲母sJa現設爲「时」字二級簡碼。
  • 「𠂤」改爲Yd,取聲母d。和「豸」分離。

調整部分字根:

  • 鑑於「班中」「师左」近似易混,故不作區分,統一爲Uh。注意,「师左」爲𠂤字簡化,在臺灣標準中同「班中」。
  • 鑑於「丑」字拆分分歧較大,故而增加此字根,編碼爲Bc
  • 「丅」同「下」,故而直接設置「下」字根Ak,並且以「丅」爲「下」的附屬根。

增加宋體版本字根圖。

重碼數據更新。GB2312:303。

2023年3月28日

根據反饋,調整 U 上的若干小碼:

  • 「火」改爲Uv
  • 「言」改爲Ua,同小碼一致。um二簡讓給「祖」。
  • 「丷」「䒑」「灬」等對點、四點全部合併到Uh上,以「灬」爲代表根。

調整「刀」的小碼,使其碼位爲Bd,和「刂」一致,設爲二簡,降低A鍵使用率。

調整拆分方法,凡「冒」字頭都拆作「冂二」。

調整三級簡碼生成算法,二根字優先。

更新字根練習系統。

重碼數據更新。GB2312:305,國字:216,GBK:4971,簡體選重率:0.0529%,繁體選重率:0.1667%,繁簡選重率:0.2128%。

2023年3月26日

更新用户精確造詞功能:造詞時,先按下 ` 符號引導。

優化生僻字過濾lua。

2023年3月25日

增加用户精確造詞功能:輸入過程中,按下 ` 符號作爲分隔,使用數字鍵或空格鍵依次選擇單字,卽可實現精確造詞。

2023年3月24日

增加全字根在線練習。增加最常用50、100字根在線練習。

修正字根圖錯誤。

校正部分拆分。

2023年3月23日

增加至撇區的字根在線練習。

增加通配符功能,可以使用Z鍵代替所有的非首碼的字母進行輸入。比如ABCD,可以輸入爲Azzz

全面調整二級簡碼,删除三選中不常用的詞。

根據反饋,爲了方便練習字根,現在將没有設爲二簡一選的字根字,全部設成三選。這樣也可以提示該大小碼上有一個字根。新手可以直接通過選重上屏,或者加一個f上屏。

對字根進行調整:「尝」的上半部分視爲「尚」根,拆作「{尚头}二厶」。因爲「尝」本身就是「嘗」簡化而來。這樣可以使得一個系列的字拆分邏輯一致。

2023年3月22日

對字根做出以下調整:

  • 「亠」字根改爲「宀」的附屬字根,大小碼爲「Ov」。
  • 「丂」小碼改爲k
  • 「斤」小碼改爲j
  • 「酉」改回Go
  • 所有的豎,不管幾個豎,全部改爲Ns
  • 「欠」小碼改爲i
  • {亞下}由La改爲Ja

增加純淨碼表,只包含單字全碼。

2023年3月21日

提供新的特殊符號輸入方式:

  • zy引導註音符號。
  • jm引導日語假名。
  • py引導拼音字母。
  • py引導中文標點。
  • dy引導德語字母。

提供百度、落格、小小碼表。

2023年3月20日

做出以下調整:

  • 「衤」字根改爲Py,和「𧘇」字根小碼一致。
  • 「马」字根改爲Xm,和「馬」字根小碼一致。
  • 修正字根圖中的錯誤。

字根口訣更新至捺區。

2023年3月19日

根據反饋,做出以下調整:

  • 「欠」字根改爲En,「壬」字根改爲Ee,「而」字根改爲Sj。理由是,目前高頻「次」字需要SEqr四碼出字,非常不方便,而且都在左手上。改動後,「次」的手感得到改善,且成爲二級簡碼。
  • 「見」字根改至Mx,通簡體字根的小碼保持一致。
  • 「貝」字根改至Mb,通簡體字根的小碼保持一致。
  • 三級簡碼只對常用字集設置。設置後,一級簡碼覆蓋字頻:22.22%,二級簡碼:49.13%,三級簡碼:0.25%,簡碼共覆蓋97.78%字頻。
  • 修正字根圖中的錯誤。

2023年3月18日

根據反饋,做出以下調整:

  • 特殊字符改作由Z結尾。比如分號爲fhz。這樣做可以避免和反查衝突,還能充分利用碼位空間。
  • 修正字根圖的錯誤。
  • 將部分表示部首的特殊符號添加到碼表中,作爲字根字進行輸入。

2023年3月17日

字根字現在是二碼,這會造成不少不是特别常用的漢字擠佔了二級簡碼的空間,無法設置其他的高頻漢字。這不符合「越常用的漢字碼長越短」的實用主義宗旨。因此,做出一個調整:

  • 所有的代表根都在二碼後加F。
  • 所有的非代表根都在二碼後加FF。

大多數的字根字都是常用字,所以還是會在二級簡碼上的。

這樣做還有一個好處。雖然很多輸入法全碼重碼很低,但是在二級、三級簡碼位上加了常用字後,導致了事實重碼率的上升。不如直接從根源上對字根字進行分離。

用户根據前五百常用字反饋:

  • 很 需要取四碼rvnc,因爲二碼是金,三碼是銀
  • 利 需要取四碼rmdh,因爲二碼是毛,三碼是釗

這是因爲「金」字作爲R的代表根,造成了不少字爲三碼,搶佔了常用字的三簡。因此,做出調整:

將「金」字根改爲Rn(這個碼位上没有什麽特别常用字),將「犭」字根改爲Rv,「僉」改为Rl,將「很」設置爲二簡。

川現在的碼位是Wh。但它和荒下十分相近,所以移到Qc上。這還能把二間讓給「特」。

聽取意見,將「酉」移到「西」的鍵位上,小碼設置爲j,因爲you被「雨尤不」佔用了。

绘制了简化字字根图。

2023年3月16日

根據反饋,對部分字根進行調整:

  • 減少QA的使用頻率。
  • 增加大小碼的左右互擊。

2023年3月12日

初版。