約 524,019 件
https://w.atwiki.jp/asterisk99/pages/72.html
外字注記の抽出 これまで [\r[regex ]]\rregex 【\r【regex 】】\rregex [\r[regex ]]\rregex 〔\r〔regex 〕〕\rregex 検索置換ラクダv1.01 で上記処理をほどこしたあと、「#」を検索。 これまでの欠点は、外字注記の先頭にある※印を除外していた。主目的が、外字注記のコレクションだったから。今回、「【テキスト中に現れる記号について】の変換」をおこなうにあたっては、※のあるものはあるままに、※のないものはないままに抽出したうえで、変換リストを作成・変換することになる。 そこで、これまでの上記処理を、下記のように追加変更。 ※[\r※[regex ※【\r※【regex ※[\r※[regex [\r[regex ]]\rregex 【\r【regex 】】\rregex [\r[regex ]]\rregex 〔\r〔regex 〕〕\rregex カッコの直前に※のあるばあいは、※の直前で改行。重複処理はおこなわないはずなので、置換リスト後半にあるコマンドは該当する注記では無効化される(はず)。 ……とおもったら、結果、期待はずれ。 重複処理してるということだろうか。 では、しようがないので、これまでの処理はそのまま。 くわえて、下記のように二重処理をほどこす。 ※\r[\r※[regex ※\r【\r※【regex ※\r[\r※[regex どうやら、期待どおりに処理ができた……ような気がする。二重処理はめんどうだけれど、ほかにいい方法がおもいつかないのだから、しかたがないじゃん。 2008.5.1 しだひろし/PoorBook G3'99 翻訳・朗読・転載は自由です。 名前 コメント
https://w.atwiki.jp/asterisk99/pages/73.html
外字注記の抽出2 抽出のための前処理に検索置換ラクダをもちいていたけれども、使用ソフトを ConvChar に変更。検索置換ラクダのほうがフォルダごとのドロップに対応してくれる。ただし、作業量が多くなるせいか、処理に時間がかかった。 ConvChar は、改行(\r\n)・タブ(\t)・半角スペース(\s)の3種類にかぎって置換辞書に記述することができる(ConvChar マニュアルより)。このことに長く気がつかなかった。正規表現に対応とまではいかないものの、知らないでいたころよりも、確実に用途に幅ができる。 外字注記抽出用辞書(ConvChar 用) [\r\n[ ]]\r\n 【\r\n【 】】\r\n [\r\n[ ]]\r\n 〔\r\n〔 〕〕\r\n ※[\r\n※[ ※【\r\n※【 ※[\r\n※[ こうなれば、勝手知ったるなんとやらで。 テストにも成功。 くりかえしになるが、いちおう ConvChar 用辞書の解説。二重処理はしない、辞書後方のリストから処理する、というのが ConvChar の仕様。なので、今回の処理のために、最後の3行を追加するだけ。注記先頭に※印のあるものにかぎって※の直前で改行させる。あとは従来の処理のまま。 厳密な意味での完全な注記抽出にはならない(入れ子注記未対応、先頭文字抽出できない)ものの、ここでは、ここまでできればOK。 2008.5.1 しだひろし/PoorBook G3'99 翻訳・朗読・転載は自由です。 名前 コメント
https://w.atwiki.jp/asterisk99/pages/64.html
変換:外字注記+アクセント分解 その1 対象:あく・芥川竜之介(353) 時間:およそ30分(1800秒) 1件あたりの処理時間:1800秒/353件 ≒5.1秒 ※ 外字注記変換辞書が2866行、アクセント分解変換辞書が913行。 ※ 外字注記のみの処理とくらべて、ちょうど倍の時間がかかった。 その2 対象:こう・幸田露伴(35) 時間:およそ3分(180秒) 1件あたりの処理時間:180秒/35件 ≒5.1秒 結果 ※ 芥川竜之介と幸田露伴の1件あたりの処理時間はいずれも5.1秒。 ※ 230.4MB×6分 =1382.4分 ≒23時間 ※ 6853件×5.1秒 ≒34950.3秒 582.505分 9.7時間 ? 外字注記とアクセント分解のをいちどに処理するほうが、手数が減る。ところが、処理時間は、倍の時間がかかった。手数をはぶくか、時間をとるか。 a)アクセント分解の作品群 1177件 b)外字注記の作品群 5520件 【#】 2件 [#] 5518件 c)外字注記+アクセント分解の作品群 5841件 d)処理不要の作品群 1012件(=6853−5841) 6853件のなかからd)を削除。第一段階にa)とc)を抽出して処理。第二段階にb)とc)を抽出して処理。 仮にd)処理不要の作品群1012件を処理対象にふくんだままにすると、1012件×5.1秒として5161.2秒≒86分が余計な作業時間。 5841−5520件(c)からb)をひく)=321件。=外字注記 and アクセント分解321件×5.1秒として1637.1秒≒27.3分。 1177−321件=856件。純粋にアクセント分解の変換処理だけで作業がすむ作品数。856件×2.6秒として2225.6秒≒37分。 856件 37分 321件 27.3分 5520件 4時間(≒239.2分=14352秒=5520件×2.6秒) 1012件 0分 total 5時間? totalの件数があわない。どこかおかしい。それから5時間には作業時間に分類にかかる時間がふくまれていない。手作業での分類は、ちょっと考えたくない。やるとしたらUnix。 公開:2008.4.11 更新:2008.4.11 しだひろし/PoorBook G3'99 翻訳・朗読・転載は自由です。 名前 コメント
https://w.atwiki.jp/asterisk99/pages/68.html
幸田露伴「墨子」外字 底本:『露伴全集 第十八卷』岩波書店 1949(昭和24)年10月10日発行 初出:岩波講座『世界思潮』第二冊、岩波書店 1929(昭和4)年7月発行(底本後記より) 外字注記一覧 ※[#「さんずい+勺」、p180-9] ※[#「弓+昭のつくり」、p183-3] ※[#「享+(廣−广)」、p174-5] ※[#「月+拔のつくり」、p196-1] ※[#「糸+寅」、p202-8] ※[#「車+墳のつくり」、p186-14] ※[#「女+環のつくり」、p175-13] ※[#「女+郎」、p175-13] ※[#「石+徑のつくり」、p202-13] ※[#「土へん+占」、p192-9] ※[#「酉+碌のつくり」、p195-9] 2008.4.24:公開 2010.7.21:更新 カウンタ設置。 しだひろし/PoorBook G3'99 翻訳・朗読・転載は自由です。 カウンタ: - 名前 コメント
https://w.atwiki.jp/themusashi/pages/32.html
英数・外字・記号 2ちゃんねる的な対立の構図に固定が乗っかったらいけない AA A級固定 DANCEでバコーンズ THE武蔵 THE武蔵が戦ってきた固定たち THE武蔵が立てたスレ一覧
https://w.atwiki.jp/poorbook99/
青空文庫・外字注記コレクション【第五αwiki版】 3月3日生まれにちなんで、プロジェクトネーム“ヒナちゃん”です。 ※ 注意:点検前の版です。 ※ 編集者(しだ)による、故意の作業マニュアル逸脱行為がふくまれています。どうぞ、おたのしみください。 作成:2003.10.10 初版 公開:2007.3.3 第五αwiki版 編集:しだ ひろし 監修:小林 繁雄 青空文庫登録作品にあらわれた外字注記を一覧にしてあります。部首索引で調べることができます。 JIS第3・第4水準漢字対応のフォント(例えばKandata、Habianなど)を使用して表示してください。(wiki 版は外字画像表示なので、フォントの用意は不要です) JIS X 0208 の包摂規準に従ったさい、包摂される文字は赤でしめし、包摂する文字(入力のさいに代用していい字)を灰色で添えました。 包摂される文字・包摂する文字(入力のさいに代用していい字)を共に赤でしめしました。注記冒頭の「※は、」という断り書きと、「ページ数-行数」を削除しました。 「へん+つくり」「かんむり/あし」「かまえ<つくり」のルールに従って、一部簡略しました。 視線の流れのさまたげや、部首判断の誤認になりやすい表記のばあい、表記を若干変更したものもあります。 例、「施」の「方」にかえて「ころもへん」 → 「ころもへん+施のつくり」 JIS面区点番号 や Unicode 番号を追記しました。JIS X 0213 にない漢字は Unicode ナンバーであらわしています。「u」は、Unicode・UCS のコードナンバーの意味です。 いずれにも含まれない漢字のみ、注記の「読み」をそのまま付けています。 作成にあたっては、青空文庫「新 JIS 漢字総合索引 面区点番号付き(2004年5月5日版)」http //www.sumomo.sakura.ne.jp/~aozora/jisx0213/0213tools/ 、「0208 外字の出現状況」http //aozora.gr.jp/gaiji0213/、および、 2004年5月24日現在までの作品を対象に、宮地一郎さんが検索してリストアップした外字注記抽出データを用いました。 第五版 改訂内容 2006.12.9 小林さんによる追加が504項目。しだによる追加が265項目。合計769項目を前版(1601項目)に追加して、のべ2370項目を収録しました。小林さんによる追加は校正待ち作品その他からの収録です。しだによる追加は『インターネット図書館・青空文庫』(2006.11.はる書房)付属DVDからの収録です。 前版までは JIS コード順にならべていましたが、今回より画数順配列に変更しました。 「→※」という表記は削除しました。 「替えて」「代えて」「変えて」は「かえて」にかえました。 つぎの部首については、それそれ項目を独立させました。て【 手 】 てへん【2-12-87.png】 こころ【 心 2-12-27.png】 りっしんべん【2-12-26.png】 ひ【 火 】 れんが・よつてん【2-79-56.png】 いぬ【 犬 】 けもの【2-80-26.png】 ころも【 衣 】 ころもへん【2-88-08.png】 かたな【 刀 】 りっとう【2-03-21.png】 さんずい【2-78-17.png】 みず【 水 】 Unicode ナンバーと漢字の読みは、注記カッコ外に移動させました。行頭の数字は、部首以外の総画数です。 部首・画数索引を用意しました。部首の読みについては インプッドメソッド インプットメソッド「ことえり」「ATOK」、『新漢和大字典』(藤堂・加納(編)2005.5. 学研)を参考にしました。画数については「新 JIS 漢字総合索引 面区点番号付き」を参考にしました。
https://w.atwiki.jp/poorbook99/pages/24.html
外字注記コレクション 第五αwiki版 プロジェクト・ヒナちゃん 更新履歴 取得中です。 もくじ 第五版 改訂内容 部首・画数索引 ヒナちゃんのジレンマ あお・あおへん【 青 】 あか・あかへん【 赤 】 あさ【 麻 】 あし・あしへん【 足2-89-25.png】 あな・あなかんむり【 穴 】 あまい【 甘 】 あみがしら【2-84-72.png】 あめ・あめかんむり【 雨 】 あらず【 非 】 いし・いしへん【 石 】 いたる【 至 】 いち【 一 】 いちじゅう【 干 】 いちた【 歹2-15-93.png】 いと・いとへん【 糸 】 いとがしら【 幺 】 いぬ【 犬 】 いのこ【 豕 】 いりがしら・いる【 入 】 いろ【 色 】 うかんむり【 宀 】 うけばこ・かんにょう【 凵 】 うし・うしへん【 牛 】 うじ【 氏 】 うしとら【 艮 】 うす【 臼2-85-58.png】 うま【 馬 】 うまれる【 生 】 うり【 瓜 】 えんにょう【 廴 】 おいがしら【2-85-02.png老 】 おう・たま【 王 玉 】 おおがい【 頁 】 おおざと【 邑2-90-05.png】 おおとり・ふるとり【 隹 】 おと【 音 】 おに・きにょう【 鬼 】 おのれ【 己 已 巳 】 おみ・しん【 臣 】 おんな・おんなへん【 女 】 かい・かいへん【 貝 】 かおり【 香 】 かくのかわ【 革 】 かける・あくび【 欠 】 かぜ【 几 風 】 かた・かたへん【 片 】 かたな【 刀 】 がつ・かばね【2-15-93.png歹 】 かなえ【 鼎 】 かね・かねへん【 金 】 かのほこ【 戈 】 かみがしら【 髟 】 かめ【 亀 龜 】 かわら【 瓦 】 がんだれ【 厂 】 き【 黄1-94-81.png】 きがまえ【 气 】 きば【 牙 】 きび【 黍 】 きへん【 木 】 ぎょうがまえ【 行 】 ぎょうにんべん【 彳 】 きん・おのづくり【 斤 】 ぐうのあし【1-89-36.png】 くさかんむり【2-85-86.png艸 】 くさのめ【 屮1-47-66.png】 くち・くちへん【 口 】 くにがまえ【 囗 】 くび【 首 】 くるま・くるまへん【 車 】 くろ【 黒1-94-82.png】 け【 毛 】 けいがしら・よ【 彑 】 けいがまえ【 冂 】 けもの・けものへん【2-80-26.png】 げん【 玄 】 こ・こへん【 子 】 こう【 爻 】 こころ・したごころ【 心2-12-27.png】 こざとへん【 阜2-90-05.png】 こめ・こめへん【 米 】 ころも【 衣 】 ころもへん【2-88-08.png】 ごんべん【 言 】 さかな・うおへん【 魚 】 さけのとり【 酉 】 さじ【 匕 】 さと【 里 】 さむらい【 士 】 さら【 皿 】 さんずい【2-78-17.png】 さんづくり【 彡 】 しか【 鹿 】 しかして【 而 】 しかばね【 尸 】 しきがまえ【 弋 】 した【 舌 】 したみず【2-78-19.png水 】 しめす【 示 】 しめすへん・ね【2-82-64.png】 じゅうまた【 支 】 しょう【 小 】 しょうへん【2-80-14.png爿 】 しょくへん【 食2-92-44.png】 しろ・しろへん【 白 】 しん・からい【 辛 】 しんにょう【2-89-73.png2-89-74.png1-92-51.png】 しんのたつ【 辰 】 すいにょう【 夂 夊 】 すん【 寸 】 せい【 斉 齊 】 そうにょう【 走 】 た・たへん【 田 】 だい・おおきい【 大 】 だいのまげあし【1-47-61.png】 たかい【 高 】 たくみ【 工 】 たけ・たけかんむり【 竹 】 たつ【 立 】 たに・たにへん【 谷 】 たま【 玉 王 】 たみ【 民 】 ち【 血 】 ちから【 力 】 ちち【 父 】 つくえ・きにょう【 几 】 つち・つちへん【 土 】 つつみがまえ【 勹 】 つづみ【 鼓 】 つとめる・びん【 黽 】 つの・かく【 角 】 つめ【 爪2-80-09.png2-80-10.png】 つりばり・おつ【2-01-15.png乙 】 て【 手 】 てへん【2-12-87.png】 てん【丶】 と・とびらのと【 戸 】 とうがまえ【 鬥 】 とお・じゅう【 十 】 とぶ【 飛 】 とます【 斗 】 とまた・のぶん【 攴 攵 】 とめる【 止 】 とらがしら【 虍 】 とり【 鳥 】 ながい【 長 】 なかれ・はは【 毋 母 】 なべぶた【 亠 】 なめしがわ【 韋 】 ならびひ【 比 】 に【 二 】 においざけ【 鬯 】 にく【 肉 】 にくづき・つき【 月 】 にし【 西 襾2-88-37.png】 にじゅうあし【 廾 】 にすい【 冫 】 にち・ひらび【 日 曰 】 にら【 韭 】 にんべん・ひと【 人2-01-21.png2-01-22.png】 ぬいとり【 黹 】 ねずみ【 鼡 鼠 】 の・のめ【 丿 】 のぎへん【 禾 】 のごめ【 釆 】 は【 歯 齒 】 はこがまえ【 匚 匸 】 はち【 八 】 はつがしら【 癶 】 はな・はなへん【 鼻 】 はね【 羽 】 はねぼう【 亅 】 はば【 巾 】 ひ【 火 】 ひき【 疋2-81-36.png】 ひさしい・く【 久 】 ひつじ【 羊2-84-82.png】 ひとあし・にんにょう【 儿 】 ひとえ【 單 】 ひのかわ【 皮 】 ふしづくり【 卩 】 ふで【 聿 】 ふね・ふねへん【 舟 】 ぶん【 文 】 ほう【 方 】 ぼう・たてぼう【1-14-04.png】 ぼく・と【 卜 】 ほこ・むのほこ【 矛 】 ほとぎ【 缶 】 ほね・ほねへん【 骨 】 まいあし【 舛 】 まがりがわ・さんぼんがわ【 巛 川 】 まげあし【 尢 兀 】 また【 又 】 まだれ【 广 】 まめ・まめへん【 豆 】 み・みへん【 身 】 みず・したみず【 水2-78-19.png】 みずから【 自 】 みみ・みみへん【 耳 】 みる【 見 】 む【 厶 】 むぎ【 麥 麦 】 むし・むしへん【 虫 】 むじな・むじなへん【 豸 】 むにょう・む【 无 旡 】 めへん【 目 】 めん【 面 】 もちいる【 用 】 もんがまえ【 門 】 や【 矢 】 やく【 龠 】 やま【 山 】 やまいだれ【1-88-44.png】 ゆうべ・た・ゆう【 夕 】 ゆみ・ゆみへん【 弓 】 よこめ【2-84-74.png】 よんがしら【2-84-74.png网 】 らいすき【 耒 】 りっしんべん【2-12-26.png】 りっとう【2-03-21.png】 りゅう【 竜 龍 】 るまた【 殳 】 れいのつくり【 隶 】 れき【 鬲 】 れんが【2-79-56.png】 ろ・しお【 鹵 】 わかんむり【 冖 】 包摂適用・78互換包摂 ひらがな・カタカナ 丸数字・ローマ数字 アルファベット・発音記号 各種記号 屋号・地図記号 篆書体・草書体・変体仮名 その他の記号 奥付 リンク 青空文庫 外字画像コレクション あさっての向かい風 aozora blog 外字注記の検索
https://w.atwiki.jp/poorbook99/pages/182.html
ヒナちゃんのジレンマ メイン掲示板です。 レンタルwikiなので、いつサイトやログが消滅するかわかりません。バックアップシステムやミラーを用意できるかた、歓迎します。また、コメントのすべては記録されかつ自由に利用されることを前提にご参加ください。 -- しだ (2007-03-03 21 35 55) 「Windows機種依存文字の外字注記作成報告」http //attic.neophilia.co.jp/aozora/task/windows_gaiji/report.htmlの注記を先取りして追加していってみることにします。 -- しだ (2007-03-13 04 55 11) JIS X 0213 にふくまれない外字注記をブルーで表示します。また、監修の小林さんに点検していただいた内容をもとに、細部を修正しています。ただし、なお小林さんからの指摘をすべて反映していないことをご了承ください。 -- しだ (2007-03-15 05 39 26) AkB 最高 -- 大島優子 (2011-02-12 17 17 52) まあ、たしかにAKB 最高ですが、連日ボットからの書き込みをいただくようになってしまったなあ……。どうしようかなあ……。 -- しだ (2011-10-02 11 52 24) 名前 コメント #weblog ブログ形式にしてみます。
https://w.atwiki.jp/reportdesigner/pages/28.html
(2009年08月21日) 外字が出ないのですが?
https://w.atwiki.jp/poorbook99/pages/103.html
つの・つのへん・かく【 角 】 2. 1-91-90.png → ※[#「角+力」、第3水準1-91-90] 6. 1-91-91.png → ※[#「角+光」、第3水準1-91-91] 7. 2-88-45.png → ※[#「角+束」、第4水準2-88-45] 10. 2-88-48.png → ※[#「穀」の「禾」にかえて「角」、第4水準2-88-48] 12. ※[#「角+(門<月)」] 名前 コメント