skk-dev / dict Goto Github PK
View Code? Open in Web Editor NEWSKK dictionary
SKK dictionary
独り言ですので無視してください。
emoji の生成は、[en|ja].xml
をバッファに読み込んで libxml-parse-xml-region()
で解析したのですが、libxml がめっぽう早いような気がしました(計測してませんけど)。
で、DDSKK が xml 辞書を直接読み込んでも面白いなと思って(その昔、L 辞書をPostgreSQLに突っ込んだこともあるので)。
で、さらに発展させて、xml 辞書(とdtd)を定義すれば、それを経由することで他フォーマットの辞書の変換がかなり容易になるのかな、と妄想しました。
CDID (Common Definition for IME Dictionary format by xml)、どうでしょう。
「﨑」が変換に出てきませんでしたので、ご登録頂けないでしょうか?
リポジトリ内およびIssuesを検索してヒットしないようでしたので、新規に立てています。
よろしくお願い致します。
SKK-JISYO は登録する際に整形する必要がありますが、GitHubにpushする前に整形が行われるべきである。
push 操作のときに整形ツールを hook できる仕組みは無いか?
When typing じどり、you don't get 自撮り as a candidate. It might mean that this word is not in the dictionary.
お世話になっております。
辞書の漢字の部分に「;」セミコロンを使用する際にエスケープは可能でしょうか?
たとえば
( ̄▽ ̄;)
このようなセミコロンを含む顔文字に変換する辞書を
作成する場合などに
辞書の漢字の部分に「;」セミコロンを使用する際に
「;」セミコロンをエスケープ可能な特殊文字は
ありますでしょうか。
ご指導おねがいいたします。
SKK-JISYO.emojiについて、手元で生成して使うだけなら問題なさそう
ですが、ライセンスがはっきりせず再配布には向かないのが現状だと
思います。
派生作品への許可が見あたらない
https://unicode.org/emoji/charts-13.0/emoji-list.html
ではなくhttps://unicode.org/Public/emoji/配下等、
Unicode Data Files and Software Licenseの範疇のファイルから
生成できれば、EDICTのCC BY-SAとも矛盾せずに配布できそうです。
cf. https://www.gnu.org/licenses/license-list.ja.html#Unicode
https://www.unicode.org/license.html
https://www.unicode.org/copyright.html
想像ですが、今後はもう、
「(SKK-JISYO.L を基に)SKK-JISYO.{M|ML|S} に採用する候補を取捨選択する」
という労力は無駄だと思うのです。
当時の携帯端末の性能では容量が大きすぎる SKK-JISYO.L に代え、SKK-JISYO.S の意味もありましたが、
現代の携帯端末の性能では SKK-JISYO.L でも大丈夫でしょう。
ほか、仮に SKK-JISYO.{M|ML|S} をメンテする労力があるなら、SKK-JISYO.L の充実・精度向上を優先すべきとも考えます。
committers.md もご覧ください。
浅はかな考えかもしれません。ご意見ございましたら、どうぞよろしくお願いいたします。
表題の通り、GitHub Pages 側の辞書が2020年のコミット 38c81db を最後に、3年ほど更新されてないように見えます。
何か理由があって更新していないのならそれはそれで良いのですが、単に理由なく更新されていないのであれば GitHub Actions での生成に切り替えるなども手かと思います (cf. https://github.com/actions/upload-pages-artifact ) 。
こんばんは。
SKKで使える**語辞書(ピンイン→簡体字)を用意してみました。
https://github.com/tetsuotsukamoto/pinyin
https://github.com/tetsuotsukamoto/pinyin/blob/main/SKK-JISYO.pinyin
辞書データの由来は、Emacs/LEIM と同じ CCE (Console Chinese Environment)
というパッケージです。CCE は GPL v2 ライセンスです。
http://archive.debian.org/debian/pool/main/c/cce/cce_0.36.orig.tar.gz
これにより、SKK abbrev モードで pinyin (アルファベット) から単漢字または
単語に変換できます。
(例) ▽riben → ▼日本
SKK-JISYO.pinyin の文字コードはとりあえず utf-8 としています。
注意点としては、個人辞書の文字コードが日本語と**語の混在を許すもの
でないと問題がでるかもしれません。
(保存した後辞書を開きなおしたら別の漢字に変わってしまうなど)
pinyin は四声を省いた簡略なバージョンです。LEIM では四声付きの入力
メソッドもありますが、下手に実装するとかえって不便になるかと思います。
また四声なしの pinyin 辞書は、もう少し作業すれば補完入力に対応させる
ことも可能かもしれません。
現在 DDSKK と AquaSKK で動作を確認しています。
ただし、AquaSKKのサーバー機能を利用して DDSKK から変換すると
一部の漢字が下駄になってしまい、表示できません。
これは SKKサーバーが EUC-JP を前提としており、一部の**の漢字が
共存できないことと関係するかと思われます。
副作用として、mac OS 上の辞書機能 (DictionaryServices) をアノテーションで
利用する設定にしていると、**語の候補に自動でアノテーションを付けることが
可能です。他の環境でもlookup経由のEPWING辞書によるアノテーションは可能と
思われます。
**語使用者のプレゼンスが増している現代において、日本人にとっても
**語を手軽に扱う手段があるのは悪くないかと思いました。
また、日本語入力メソッドのまま**語を入力できるのは少し便利です。
今後もし余裕があったら改良していきたいと思います。
--
Tetsuo Tsukamoto
When typing しもべ、neither "僕" nor "下部屋" appears as a candidate. Is it possible to add words individually to dictionaries?
Is it possible to star versioning/tagging this repo and make first release? 🤔
It would allow easier package.
はじめまして。
「2018 年 12 月以降は、SKK 辞書の更新は github のみです。」
となっておりますので
新しいエントリがSKK辞書に反映されていないのかもしれませんが
(旧?)「辞書登録・削除希望入力フォーム」
http://openlab.jp/skk/registdic.cgi
のうち
エントリがSKK辞書に反映されているのは
2017年9月19日エントリの
「しんかいまこと /新海誠」
その他の人名(フルネームなど)
アニメーション監督。
が最後で
2017年9月21日以降の新しいエントリがSKK辞書に反映されていません。
プロジェクトのリポジトリをForkしてmaster以外の僕専用のbranchを作成して
各辞書ファイルに
;; 冒頭のコメントが連続する各行
や
;; okuri-ari entries.
や
;; okuri-nasi entries.
があるので
1つの辞書ファイルのままでは
sortコマンドがうまくいきそうもないので
各辞書ファイルを
csplitコマンドを使用してファイルを3分割してから
「辞書登録・削除希望入力フォーム」の
2017年9月21日以降の新しいエントリを
各辞書に追記して
sortコマンドで
アルファベット順
五十音順に並び替えて
その後
catコマンドで3分割した辞書ファイルを結合して
git add
git commit
git push
これで僕がForkしたリポジトリの僕専用のbranchからのプルリクは可能でしょうか?
Hi, there. I found lacking character /
at the following lines in SKK-JISYO.L
sars-cov /severe acute respiratory syndrome coronavirus/SARSコロナウイルス
sars-cov-2 /severe acute respiratory syndrome coronavirus 2/2019新型コロナウイルス
The above lines should be the follows
sars-cov /severe acute respiratory syndrome coronavirus/SARSコロナウイルス/
sars-cov-2 /severe acute respiratory syndrome coronavirus 2/2019新型コロナウイルス/
Please update them. Thanks!
L辞書冒頭でopenlabへの誘導がありますが、openlab上での更新は終了したのでGitHubへの誘導に変更してはどうでしょう。
openlab上のMLへの誘導もありますが、MLは廃止されたようなのでこれは削除が望ましいように思います。
自分で修正してプルリクしようとしたのですが、自分の環境では文字化けしてしまい修正できませんでした。修正可能な方いましたら、修正おねがいします。
SKK-JISYO.L にあるエントリ「さいげん /再現;represent/」について、
represent には再現の意味がないので、reproduce 等の単語の方が適切かと考えますが、如何でしょうか?
とりあえず問題提起だけしておきます。
元々は GitHubで一元的に辞書も管理してしまおうというのがアイディアですが、現状では OpenLab のオリジナルとの辞書との同期は手動で行わなければいけません。
GitHubに対しての改変にしても本家の改変に対してもです。
なんとかこの同期を自動化が必要かなぁ、と。
OpenLabの辞書登録フォームの動作不良の問題もありますし。
SKK-JISYO.fullnameにはJIS X 0213の文字が含まれており、euc-jpでは
なく、正しくはeuc-jisx0213またはeuc-jis-2004だと思います。
ところで、2017年にSKK-JISYO.itaiji.JIS3_4について同様の誤りが修正
された際に、euc-jisx0213からeuc-jis-2004へ表記が統一されましたが、
SKK-JISYO.JIS2004が追加された2007年時点では、JIS2004未対応の環境
を考慮して、JIS2004の文字を含むSKK-JISYO.JIS2004はeuc-jis-2004、
JIS2000の範疇のSKK-JISYO.JIS3_4はeuc-jisx0213というふうに使い分け
されていました。
現時点では使い分けする意義は薄れているのかもしれませんが参考までに。
Quoting from [skk 6904]:
Date: Thu, 27 Mar 2008 03:49:53 +0900 (JST)
From: Kobayashi Noritada [email protected]
Subject: [skk 6904] EDICT のライセンス変更を受けての SKK-JISYO.edict に関する提案
To: [email protected]EDICT は何回かライセンスを変更しているようですが、少し前まで Creative
Commons Attribution-ShareAlike Licence (CC by-sa) 2.5 だったのが、先日
CC by-sa 3.0 になりました[1]。SKK 辞書に含まれる EDICT は、ヘッダを見るかぎりその前の独自ライセンス
時代のもののように思われますが、もしよろしければ、EDICT を最新版に追従
するとともに、ライセンスまわり (SKK-JISYO.edict のヘッダ・
edict_doc.txt・READMEs/committers.txt) も更新されては如何でしょうか?
edict_doc.txt は現在は
http://ftp.monash.edu.au/pub/nihongo/edict_doc.html となっており、ライ
センスに関する記述の実体は
http://www.csse.monash.edu.au/~jwb/edrdg/licence.html にあるようです。特に急がなければならないというわけでもないので、お時間のあるときにでも
ご検討願えたらと思います。
現状のSKK-JISYO.edictは、その有償配布制限から、Debian Free Software
Guidelines (DFSG)に適合しないものとして、Debianのskkdicパッケージ
からは除外しています。
もしCC by-sa 3.0が適用されるなら、DFSG適合として、Debianのskkdic
パッケージに収録しようと思います。
openlabとgithabでの辞書の同期を止め、更新はgithub上のみの状態でopenlab上の辞書登録・削除希望単語入力フォームで辞書校正を受理するというのは現状に合わないように思います。辞書登録・削除希望単語入力フォームは閉鎖したほうが良いのでは?
また
http://openlab.ring.gr.jp/skk/dic-ja.html
http://openlab.ring.gr.jp/skk/wiki/wiki.cgi?page=FrontPage
についても辞書登録・削除希望単語入力フォームではなくgithubのIssuesなりPull requestsに誘導するのが望ましいように感じます。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.