約 3,616,548 件
https://w.atwiki.jp/gtmpip/pages/11.html
GT.Mを2バイト(UTF-8)で動かす 資料 GT.M Support for the Unicode Standardを、良く読む。 ICU (International Components for Unicode) library IBMさんが作った、ユニコード用のライブラリWhile GT.M provides a framework for handling characters in Unicode™, it relies on the ICU (International Components for Unicode) library for language specific information. http //icu.sourceforge.net and http //www.ibm.com/software/globalization/icu/ /usr/local にインストール International Components for Unicode ICU 3.6 ReadMe ダウンロードDownload ICU 3.6 release icu4c-3_6-src.tgz 展開・configure・make・make install $ su - root # cd /usr/local/src # wget ftp //ftp.software.ibm.com/software/globalization/icu/3.6/icu4c-3_6-src.tgz # tar xzovf icu4c-3_6-src.tgz # cd /usr/local/src/icu/source # chmod +x runConfigureICU configure install-sh # ./runConfigureICU Linux # make # make install ICU4c-3.6 /usr/local の構成 bin derb genbrk gencnval genctd genrb icu-config makeconv pkgdata uconv sbin genccode gencmn gensprep genuca icupkg icuswap lib libicuio.so libiculx.so libicui18n.so libicuuc.so libicule.so libicudata.so libicutu.so libicuio.so include layout unicode ~ ~ ~
https://w.atwiki.jp/miracle_mikuru/pages/15.html
//http //msdn.microsoft.com/ja-jp/library/dybsewaf(VS.80).aspx ・OSの内部処理 Win98系 MBCS処理 WinNT系 UNICODE処理 ・定義 _UNICODE を定義する ・エントリポイント SDK _tWinMain にする _MBCS→WinMain _UNICODE→wWinMain MFC wWinMainCRTStartup を指定する #if defined(UNICODE) || defined(_UNICODE) #pragma comment( linker, "/entry \"wWinMainCRTStartup\"" ) #endif ・ワイド文字を使用する TCHAR c; _MBCS→CHAR c; (char) _UNICODE→WCHAR c; (short) LPTSTR p; _MBCS→LPSTR p; (char*) _UNICODE→LPWSTR p; (short*) LPCTSTR p; _MBCS→LPCSTR p; (const char*) _UNICODE→LPCWSTR p; (const short*) _T("hoge") _MBCS→"hoge" _UNICODE→L"hoge" _T( A ) _MBCS→ A _UNICODE→L A ・変換の注意 mbstowcs();などを使うときはsetlocale()を呼び出しておかなければならない。 setlocale(LC_ALL,"");
https://w.atwiki.jp/sevenlives/pages/536.html
Unicode 読み:ゆにこーど 英語:Unicode 別名: 意味: UnicodeとはUnicodeコンソーシアムによって作られた文字コード?のこと。 ネットワーク時代につながれたPCを前提に乱立した文字コード間の変換のわずらわしさをなくすため、多言語文字を包含し、世界標準の統一文字コードとして考案されました。 ISO/IEC 10646?一部UCS-2として標準化された。 当初は2バイト【16bit】で表現しようと考えられていたがCJK圏の文字をはじめそれだけでは足りず、後に拡張されている。 Apple、HP?、IBM、ジャストシステム?、Microsoft、Sun?、Oracle、SAP?といった主要企業に使われている。 XML、Java、ECMAScriptなどの言語の標準文字コードとして使われている。 先頭128文字はASCII?コードと同じ。 Unicodeによって完全に文字コードの問題が消えたわけではなく現在も策定中でバージョンによる非互換といった問題がある。 2018年12月23日 Unicode Consortium? ISO/IEC 10646? JIS X 0221? JIS X 0201 JIS X 0208 JIS X 0213? UCS?UCS-2 UCS-4 BOM? BMP【基本多言語面】 RLO? CJK コード・ポイント ハンユニフィケーション サロゲートペア? Japanese Yen問題? ソース・セパレーション・ルール? IVS WideCharToMultiByte? MultiByteToWideChar? versionUnicode 2.1? Unicode 3.1? Unicode 4.0 Unicode 5.1? UTF-7? UTF-8 UTF-16 Java XML
https://w.atwiki.jp/timeline/pages/27.html
以下の二つの意味合いがある。 1.デジタルで文字を表示する際に使用するコードの規格。 2.LINEアプリの動作に支障を与える文字配列。 本稿では2について記述する。 概要 LINEアプリでは特定の文字配列を持つコードに対する脆弱性が存在する。そのコードを取り扱うと動作に著しい支障をきたし、機能を使い物にならなくしてしまう。 LINE界隈ではUnicodeイコール動作に支障をきたす文字配列の意味合いが強い。 用例 基本的に荒らしユーザーの手により使用される。 投稿のコメント欄、リレーの投稿に貼り付けるだけで動作をおもくすることができる。これはタイムラインに限らずトークでも同様で、オープンチャットを壊滅させた例も報告される。 一般的にリレーを壊滅させようとする場合連投ツール(寝マクロ等)と併用して大量に投下することが多い。 対策 対策、とまで言えるレベルかは不明であるが、PC版で閲覧するとUnicodeによって動作が遅くなることはほとんど無い模様である。 又、アラビア系Unicodeを除去するexeソフトも開発されている。 関連 Unicode保管サイト(PC推奨) https //www.geocities.ws/unicode-ame/index.html
https://w.atwiki.jp/shouchan/pages/25.html
Unicode一覧
https://w.atwiki.jp/akios/pages/33.html
3. 字句構造 3.1. Unicode プログラムはUnicode文字集合(character set)にて記述します。この文字集合とそれと関連する文字符号化(encoding)についてはhttp //www.unicode.org/を参照してください。 Java SEプラットフォームをUnicodeの仕様の更新を追っています。リリース毎の正確なUnicodeのバージョンはCharacterクラスのドキュメントに明記されています。 Javaプログラミング言語の1.1より前のバージョンはUnicodeバージョン1.1.5を使用しています。Unicode規格の新規バージョンへのアップグレードはJDK 1.1の時にUnicode 2.0へ、JDK1.1.7の時にUnicode 2.1へ、Java SE 1.4の時にUnicode 3.0へ、Java SE 5.0の時にUnicode 4.0へ対応が行われています。 Unicodeは元々16ビット固定長で策定されてきましたが、収録される文字数が増加し16ビットでは不足するようになりました。現在規定されているコードポイントの範囲は、16進数U+n記法で表すと、U+0000からU+10FFFFです。U+FFFF超の文字を補助文字(supplementary character)と呼びます。16ビットのコード長で全文字を表現するため、UnicodeではUTF-16と呼ばれる符号化を定義しています。UTF-16では補助文字は16ビット長のコードを2個、ペアで使用することによって符号化され、最初のコードは高位サロゲート(high-surrogate)範囲(U+D800からU+DBFF)、次のコードは下位サロゲート(low-surrogate)範囲(U+DC00からU+DFFF)を使用します。コードポイントU+0000からU+FFFFの文字については、UTF-16のコードとコードポイントの値はまったく同じです。 Javaプログラミング言語ではプログラムを記述するテキストはUTF-16符号化を用いた16ビット長の文字の並びです。 JavaSEプラットフォームのいくつかのAPI、特にCharacterクラス、によって個々のエントリが32ビット整数であるようなコード単位を使うことができます。Java SEプラットフォームは16ビットと32ビット表現間の変換メソッドを提供しています。 本仕様では特に明示がなければコードユニットとして暗黙的にUTF-16を使用しています。 コメントや識別子、文字や文字列リテラルの中身を例外として、プログラム内の全ての入力要素はASCII文字のみ(もしくはASCII文字に変換されるUnicodeエスケープ)で構成されています。 ASCII (ANSI X3.4)とはAmerican Standard Code for Information Interchangeの略です。Unicode UTF-16符号化の最初の128文字がASCII文字です。 3.2. 字句変換 3.3. Unicodeエスケープ 3.4. 行終端子 3.5. 入力要素とトークン 3.6. 空白 3.7. コメント 3.8. 識別子 3.9. キーワード 3.10. リテラル 3.11. 分離子 3.12. 演算子
https://w.atwiki.jp/c-atelier/pages/331.html
登場 Recipe 番号 タイトル 備考 |] レシピNo.027 Unicode塵灰  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄[属性:無] ┏──────────┓ 《材料》 ∥ ∥ ・ ∥ ∥ ・ ∥ ∥ ・ ∥ ....... ∥ ・ ∥ . . ∥ 《器具》 ∥ . .. ∥ ・ ∥  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ∥ ・ ┗──────────┛ 【効果】 特に無し 【価値】 20マニー ───────────────────────────────── 塵。 灰。 調合失敗時にできる廃棄物の1つだが、無属性錬金の中でも ───────────────────────────────── 特定のアイテムの調合に失敗した時にだけできる少しだけ珍しい廃棄物。 ───────────────────────────────── 料理のアク抜きや物をゆっくり冷やすのに使い、少なくともレンコンよりは有用。 ───────────────────────────────── この世界の構成物質が極限まで分解された、その最小単位存在。 Atom。 ─────────────────────────────────
https://w.atwiki.jp/miracle_mikuru/pages/105.html
bool writeUnicodeText(LPCWSTR path) { FILE* file = NULL; _wfopen_s( file, path, L"wb"); if(file) return false; LPCSTR header = "\xFF\xFE";// Unicode (UTF16 Little Endian) fwrite(header, sizeof(char), 2, file);// = FF FE fwrite(L"abc", sizeof(WCHAR), 3, file); fwrite(L"\r\n", sizeof(WCHAR), 2, file);// = 0D 00 0A 00 //fwrite(L"\x0Dx0A", sizeof(WCHAR), 2, file);// = 0D 00 0A 00 fclose(file); return true; }
https://w.atwiki.jp/winamp/pages/150.html
Winamp を使い始めて一番最初に困ったのは iTunes でリッピングした曲のファイル情報なんかが全部文字化けしている事でした。どうして、あんな仕様になっているのか分かりませんけど、とにかくファイル情報のほとんどが文字化けしている状態。 Winamp でリッピングし直せばいいのかもしれませんけど、さすがに CDを400枚とかリッピングし直す気力も無いし、一部の CD は友人に返しちゃったし‥どうしようかな?と‥少し途方に暮れましたよ。 色々と調べるうちに、どうやらファイル情報の中の文字もテキストファイルと同じように文字コードがある事だけは分かりました。じゃあ普通に iTunes でリッピングしたのは Shift-JIS じゃないの?と思うのですが、iTunes 7.6.2までのiTunes の文字コードはISO Latin-1らしいです‥どんだけマイナーな文字コード使ってんだよっていう話です。そりゃ文字化けもするわ。(ラテン文字のアルファベットセットらしいです。俺たちが標準だみたいな考え方が素敵です。) じゃあ、その ISO Latin-1 詳細不明から Shift-JIS にするにはどうしよう?という話‥いや、いっそのこと Unicode にしようか。Winamp ならどちらもちゃんと表示してくれるから安心です。 ということで探してきたのがID3Uniというフリーソフト...あの...大丈夫なんでしょうか、えらくショボイんですけど。 しかし、このソフトは見た目に騙されてはいけません。とんでもなく優秀です。 ID3v1 にある文字コードを変換して ID3v2 にコピーします。上書きしたりする時にいちいち確認の表示がされるのが邪魔ですが、これでどんな文字コードも Unicode に変換できます。 しかしファイル名を変える事がなぜかできなくなりました。以前 Vista を使っていた時にはファイル名を変えることもできたのですが Windows7 にしてからはファイル名を変えることができません。 多分 Windows の方の問題なのだろうと思います。ファイル情報を Unicode にするならこれはお勧めです。一番下にリンクを作っておきます。 外部リンク ID3Uni
https://w.atwiki.jp/akios/pages/35.html
3. 字句構造 3.1. Unicode 3.2. 字句変換 3.3. Unicodeエスケープ Javaプログラミング言語のコンパイラー(以下、Javaコンパイラー)は最初に入力中のUnicodeエスケープ(unicode escape)を認識し、\uで始まり4桁の16進数が続くASCII文字列をその16進数に対応するUTF-16符号化コード単位(3.1.)に変換します。これ以外の文字は一切変更しません。補助文字についてはサロゲートペアで表す必要があります。この変換ステップの結果、Unicode入力文字の列となります。 UnicodeInputCharacter UnicodeEscape RawInputCharacter UnicodeEscape \ UnicodeMarker HexDigit HexDigit HexDigit HexDigit UnicodeMarker u UnicodeMarker u RawInputCharacter any Unicode character HexDigit one of 0 1 2 3 4 5 6 7 8 9 a b c d e f A B C D E F \もuも16進数も全てASCII文字です。 上記文法処理に加えて入力処理では、未加工入力文字のバックスラッシュ\がUnicodeエスケープの前に他の文字を挟まず何文字連続するか確認します。連続文字数(Unicodeエスケープの分を除いた)が偶数の場合はUnicodeエスケープとして変換され、奇数の場合はUnicodeエスケープは変換されません。 例えば、未加工入力"\\u2297=\u2297"は計11文字"\ \ u 2 2 9 7 = ⊗"になります(\u2297は文字⊗のUnicode符号化です)。 \の後にuがない場合、RawInputCharacterとして扱われ、エスケープ処理されたUnicodeストリームの一部として残ります。 \の後に1文字以上のuが続いた後に4文字の16進数がない場合、コンパイルエラーとなります。 Unicodeエスケープで変換されたキャラクターは以降のUnicodeエスケープの候補からはずされます。 例えば、未加工入力\u005cu005aは005cは\のUnicode値であるため\ u 0 0 5 aの計6文字に変換されます。Unicode文字005aである文字Zには変換されません。005cから変換された\は将来のUnicodeエスケープの開始文字とは解釈されません。 Javaプログラミング言語はUnicodeで書かれたプログラムをASCIIベースのツールで処理することができるようにASCIIに変換する標準的な手段を提供しています。変換はASCIIへ変換するプログラムのソーステキスト中のUnicodeエスケープにuを足す処理も含まれています。例えば、\uxxxxは\uuxxxxに変換します。一方で同時にソーステキスト中の非ASCII文字は単一のuを用いたUnicodeエスケープに変換します。 この変換されたバージョンはJavaコンパイラーに同様に入力可能で正確に同じプログラムを表しています。後でこのASCII形式は元と全く同じUnicodeソースに戻すことができます。この時、個々のエスケープシーケンスは、複数のuがつくものはuの数が1つ減らされたエスケープシーケンスに変換されるとともに、単一のuのものは対応する単一のUnicode文字に変換されます。 JavaコンパイラーはUnicode文字を出力する際に適切なフォントが利用できない場合、\uxxxx記法を出力形式として使います。 3.4. 行終端子 3.5. 入力要素とトークン 3.6. 空白 3.7. コメント 3.8. 識別子 3.9. キーワード 3.10. リテラル 3.11. 分離子 3.12. 演算子