約 6,179,155 件
https://w.atwiki.jp/memotech/pages/79.html
XDMCPでXmingで接続可能にする WindowsのXサーバソフトXmingからRHEL5に接続するための設定例。 #CentOS5でも同じ設定方法で動作確認済み。 1./etc/gdm/custum.confを下記のように変更する。 # GDM Configuration Customization file. # # This file is the appropriate place for specifying your customizations to the # GDM configuration. If you run gdmsetup, it will automatically edit this # file for you and will cause the daemon and any running GDM GUI programs to # automatically update with the new configuration. Not all configuration # options are supported by gdmsetup, so to modify some values it may be # necessary to modify this file directly by hand. # # Older versions of GDM used the "gdm.conf" file for configuration. If your # system has an old gdm.conf file on the system, it will be used instead of # this file - so changes made to this file will not take effect. Consider # migrating your configuration to this file and removing the gdm.conf file. # # To hand-edit this file, simply add or modify the key=value combination in # the appropriate section in the template below. Refer to the comments in the # /usr/share/gdm/defaults.conf file for information about each option. Also # refer to the reference documentation. # # If you hand edit a GDM configuration file, you should run the following # command to get the GDM daemon to notice the change. Any running GDM GUI # programs will also be notified to update with the new configuration. # # gdmflexiserver --command="UPDATE_CONFIG configuration key " # # e.g, the "Enable" key in the "[debug]" section would be "debug/Enable". # # You can also run gdm-restart or gdm-safe-restart to cause GDM to restart and # re-read the new configuration settings. You can also restart GDM by sending # a HUP or USR1 signal to the daemon. HUP behaves like gdm-restart and causes # any user session started by GDM to exit immediately while USR1 behaves like # gdm-safe-restart and will wait until all users log out before restarting GDM. # # For full reference documentation see the gnome help browser under # GNOME|System category. You can also find the docs in HTML form on # http //www.gnome.org/projects/gdm/ # # NOTE Lines that begin with "#" are considered comments. # # Have fun! [daemon] [security] AllowRemoteRoot=true DisallowTCP=false [xdmcp] Enable=true [gui] [greeter] BackgroundType=1 Logo=/usr/share/pixmaps/gdm-foot-logo.png [chooser] [debug] # Note that to disable servers defined in the defaults.conf file (such as # 0=Standard, you must put a line in this file that says 0=inactive, as # described in the Configuration section of the GDM documentation. # [servers] # Also note, that if you redefine a [server-foo] section, then GDM will # use the definition in this file, not the defaults.conf file. It is # currently not possible to disable a [server-foo] section defined # in the defaults.conf file. # 2./etc/X11/fs/config を下記のように変更する。 # # xfs font server configuration file # # allow a max of 10 clients to connect to this font server client-limit = 10 # when a font server reaches its limit, start up a new one clone-self = on # alternate font servers for clients to use #alternate-servers = foo 7101,bar 7102 # where to look for fonts catalogue = /usr/share/X11/fonts/misc unscaled, /usr/share/X11/fonts/75dpi unscaled, /usr/share/X11/fonts/100dpi unscaled, /usr/share/X11/fonts/Type1, /usr/share/X11/fonts/TTF, /usr/share/fonts/default/Type1, , /usr/share/fonts/japanese/misc unscaled, /usr/share/fonts/japanese/misc, /usr/share/fonts/japanese/TrueType # in 12 points, decipoints default-point-size = 120 # 75 x 75 and 100 x 100 default-resolutions = 75,75,100,100 # use lazy loading on 16 bit fonts deferglyphs = 16 # Log errors via syslog. use-syslog = on # For security, don't listen to TCP ports by default. #no-listen = tcp; 3.再起動してWindowsのXmingのXLaunchから接続する。 参考URL http //www.straightrunning.com/XmingNotes/ 閲覧数: - 更新日:2009-01-22 17 38 25 (Thu) bookmark_hatena() bookmark_delicious() bookmark_livedoor() bookmark_yahoo() bookmark_nifty() technoratiに登録 Buzzurlに登録 POOKMARK Airlinesに登録 bookmark_live() link_trackback(text=トラックバック元一覧:表示する) リンク元一覧: #ref_list @めもてっく is licensed under a Creative Commons 表示 2.1 日本 License.
https://w.atwiki.jp/vhs-tapes/pages/4.html
テンプレート #ref error :ご指定のファイルが見つかりません。ファイル名を確認して、再度指定してください。 (.jpg) 製造番号 リール金型番号 カセット前面金型番号 カセット後面金型番号 テープ蓋金型番号 後面右欄 品番 発売日 JAN 製造国 グレード 事業者名 備考
https://w.atwiki.jp/how_to_use_ffmpegx/pages/12.html
5. Filters tab ここでやること: エンコード前に行う処理の指定(フィルターや字幕の追加、切取りなど) 例えば素材がMPEG-2なら、デノイズをかけた「MPEG-2素材」を圧縮エンジンに渡す。 機能の多くはmencoderを使っているので他のエンジンでは使えない事もある。 5. Filters tab5.1. Subtitles 5.2. Image filtersH264 [.MP4] (mencoder)の場合 5.3. Crop 5.4. Preview 5.5. 留意事項 5.1. Subtitles DVDやらないので不明。 5.2. Image filters Deinterlace:インターレース解除。素材のインターレースを残すにはチェックせず、Options tabでインターレースを残す。Denoise:ノイズ除去。素材にノイズが無ければ無用。Dering:リンギングノイズ除去。素材にリンギングノイズが無ければ無用。Deblock:ブロックノイズ除去。素材にブロックノイズが無ければ無用Brightness:TVやモニタは個体差がある。弄らずに、モニタ側で調整する方が吉。Contrast:上に同じ H264 [.MP4] (mencoder)の場合 :通常のデブロックフィルタとは効果が異なる。本家サイトでは基本的に切らない方が良いとしているが、出力映像が滲んで見えたり、薄い水膜が貼っているように見えたら、これを切って、ビットレートを上げる方が良いかも知れない。特に実写。なお、x264はISO MPEG-4 AVC/H.264規格準拠の映像コデック。 5.3. Crop Xvidとlibavcodec mpeg-4で、映画など、上下に余分な黒帯がある素材に使う。mpeg2encエンジンでは使えない。数値はTBLR(上、下、左、右)。Autocropボタンは自動で素材映像を解析。クロップ範囲を入力する。あまり賢くはない。手許では必ず下のPreviewボタンで範囲を確認して修正している。VideoタブのVideo Sizeも勝手に変わるので確認すること。なお、libavcodec mpeg-4はffmpegプロジェクトのDivX互換コデック。ffmpegX内ではMPEG-4とかDivXとか、呼称が一定しない。 理屈は省くが、黒帯はビットレートをかなり食いつぶす。だけでなく、パンなどの際に映像に食い込んでくる事が有る。映像を多少捨ててでも切った方が縮むし、画質も良い。1000kbpsなど「BEST」ボタンとかけ離れた数値にする際は特に顕著。マクロブロック(画像を圧縮する際の単位)は16ピクセル四方のコデックが多いので、数値は全て16の倍数が安全。黒帯の映像の境目には灰色のピクセルがあるので(見えないけど)、それもきっちり捨てるべしとするサイトが多い。左の場合、上80,下80,左16,右32を捨てている。残りは672x320になる。Video tabのVideo Sizeの横幅に640と入れてからAutoSizeで16:9(横長映画で多いアスペクト)を押すと、縦は352になる。 5.4. Preview 指定したフィルタの効果確認に使う。エンコード前に設定を確認する事。再生は外部コンポーネントのMPlayer。 選択した音声トラックや字幕もここで確認できる。OSDで映像の長さと現在位置も表示。 Start from:素材映像の開始位置 Split:出力ファイルを「Start from 」の位置で2分割する。その位置を指定。.aviとmpeg出力時に使える。 Preview:プレビューの開始 5.5. 留意事項 頭書の通り、フィルタは「実際のエンコード」に入る前の下ごしらえ。 JES-Deinterlacerなど、他のソフトで行う方が画質は良いとされる。 a href=" http //www.vg.edu/title/Online-Poker.html " Online Poker /a a href=" http //www.vg.edu/title/Full-Tilt-Poker.html " Full Tilt Poker /a -- pyetjk (2007-04-10 21 50 30) 名前 コメント
https://w.atwiki.jp/rupt/pages/145.html
動画ビューワー(MMV view) ../ ソフトウェア名 動画ビューワー 現Version ? 作者(敬称略) SII(公式) 入手 PRO4等 ソフトウェア形態 ? ソース 非公開 紹介 SII公式ソフトだが一応紹介。 MMVという特殊形式の動画ファイルを再生することができるプレーヤ。 音声はない。無音。 動画というよりはMMPのパラパラ漫画を見るような感覚に近いのではないだろうか。 使用するには一般動画ファイルをMMVに変換してやる必要がある。 変換するためのソフトは「動画ファイル作成」で通常、MMV viewに付属している。 なお、変換できる動画フォーマットはAVI。 MMVに変換したとしても200KB前後のファイルサイズになることが多く、 実用性はどうかといわれると実に微妙である。 (スクリーンショット情報) 動作画面:RuputerPRO + 画面キャプチャ(rupcaptu) ver1.00 変換画面:動画ファイル作成 + WinShot ver1.53a
https://w.atwiki.jp/tsukune/pages/228.html
3D Vertexオブジェクトの挿入 Construct Insert 3Dメニューから挿入する場合、それぞれのプリミティブには独自のプロパティダイアログが存在します。ダイアログでは、モデラーに挿入する前に、プリミティブの属性を設定することができます。 3D Vertexプリミティブは、以下のセクションでカバーされています: 3D Spheres 3D Cubes 3D Cones 3D Cylinders Polyhedrons Planes 3D Oval 3D Grid 3D Polygon
https://w.atwiki.jp/ongaeshi/pages/25.html
原文(pdf)を日本語に意訳したものです。 誤訳はご容赦下さい。 解説 → Firefoxアドオンコンテストの要項を意訳してみた。 - おんがえしの日記 Firefox End of Year Add-Ons Collection Contest Official Rules 概要 このコンテストの目的は、Firefoxにおけるいくつかの素晴らしい再起動不要なアドオンを発見、紹介することです。 スポンサー このコンテストのスポンサーは Mozilla Corporation です。住所 650 Castro Street, Suite 300, Mountain View, CA 94041 (“Sponsor”). 資格 購入か料金はどんな賞も入力するか要求するのには必要ではありません。 . コンテストは、大多数の国での年齢は少なくとも個人に開いています。 13 年未成年者またはより古い人の存在は、米国および特定他の国によってローカルで未成年者 法律のまた、コンテストに参加する資格があります。 が、署名された保護者の同意を提出する必要があります。 フォームのエントリには。Dhorner (で) Mozilla ドットコム承諾書を親フォームに問い合わせください。 The Contest is void in any country subject to a U.S boycott and where prohibited by law or restricted by law or regulations. スポンサーおよびその親会社の従業員, 子会社, 関連会社, サプライヤー, 広告 機関, 従業員と同じ家に住む家族に参加資格はありません。 入力して、これらの公式規則、スポンサーのすべての決定によって拘束されることに同意し、 裁判官は、最終的かつ拘束されます。このコンテストは、すべての適用法の対象です。 参加方法 コンテストに参加するには、emailを amo-featured@mozilla.com に "Add-on competition" というSubject , エントリーする再起動可能なアドオンへのaddons.mozilla.org サイトへのリンク, 名前, あなたのエントリしたものの機能の説明を付けて送って下さい。複数エントリ化(あなたが望むなら)。 グループ投稿する場合, and all members of the group should be identified in the description so proper attribution can be given. You must be the named and 認可アカウント所有者の電子メール アドレス submitted in connection with your Entry. The authorized account holder is the natural person who is assigned to the email address by an internet access provider, online service provider, or other organization that is responsible for assigning email addresses or 関連付けられているドメイン with the submitted email address. Entries submitted will not be returned or acknowledged. その他の権利を制限することなくが,スポンサーは、スポンサーの唯一の裁量で、拒否するには、右がまたは コンテストからスポンサーの単独の裁量により、これらのルールは任意に違反する任意のエントリを削除します。 該当するスポンサー ポリシー、該当する法律、または任意の方法で有害または好ましくないです。またスポンサーします。 スポンサーの裁量で任意の参加者またはエントリを失格にする権利を留保します。ない対応 入力しなければなりません。 プライバシー Entrants will be asked to provide their names and an email address so they can be contacted if selected a winner. All Entries are public on the addons.mozilla.org site and may be publicized in other locations as well, including the entrants’ names. Except as otherwise stated herein or as otherwise agreed by you and the Sponsor, all other personal information you provide in connection with the Contest will be used only for purposes relating to this Contest, and will not be communicated to third-parties without prior permission or as otherwise specified in our Privacy Policy located at http //www.mozilla.org/en-US/privacy-policy.html. コンテストの期間 2011/10/07(金) 12 01 PST(8 01 GMT) に開始し、 2011/11/8(火) 11 59 PST (2011/11/9 7 59 GMT) に終了します(コンテスト期間)。 審査は、コンテストの終了後すぐに開始されます。 訳注 日本時間では、2011/11/09(水) 04 59 まで 作業条件 すべてのエントリは、コンテストに受け入れられるために、特定の条件を満たす必要があります。制限なし 次の条件が適用されます (a) (意訳) 最新のFirefoxに対応する必要がある Entry must be compatible with and function properly with the most recently released beta version of Firefox at the time your Entry is submitted and you must be willing to make any modifications needed so that it is compatible with the final release version of that version of Firefox; (b) (意訳) ソースコード開示 the full source code, including that of any binary components, must be made available to Sponsor (upon request); (c) (意訳) エントリー内容の説明を正確にすること the description of the Entry included in your submission must be clear and accurate; (d) コンテストに応募する前に、Mozilla Add-ons ギャラリーにアップロードしておくこと; (e) Mozilla Add-ons ポリシー https //addons.mozilla.org/pages/policy/ に準拠すること; (f) (意訳) オリジナルであること、第三者の著作権を侵害しないこと The Entry must be your original work and may not include any unauthorized intellectual property of a third party; (g) (意訳) 名前にMozzilaの商標やその一部を含めないこと(ただし末尾に"for Firefox"は除く) The name of your Entry may not include any Mozilla trademarks or portions thereof, except for the inclusion of “for Firefox” at the end of the name. The Entry must further comply with any additional technical requirements set forth in materials regarding the Contest. 当選者の選択 After the Contest Period has ended, all Entries will be reviewed and judged by the Featured Add-ons Board, a panel of five selected members of the Add-ons community. Each judge, using the criteria described below, will identify his or her top picks for winners. Those Entries receiving a vote as a top pick by at least three judges will be reviewed by a panel of Mozilla Add-ons experts, who will compile the list of winners. The Mozilla experts will only judge the Entries selected by the Featured Addons Board if needed to break a tie or evaluate the eligibility of an Entry. Members of the Featured Addons Board will be allowed to submit Entries, but not to judge their own Entries; their Entries will be judged by the remaining four judges. Entries will be judged based on the following criteria, which will be equally weighted quality of features, functionality, user experience, originality, usefulness, performance, and security. The decisions of the judging panel are final on all matters relating to the Contest and no correspondence will be entered into. 賞品 (意訳)勝利したエントリは"Firefox End of Yaer Add-on Collection"に含まれ、さまざまな媒体で紹介されます。The winning Entries will be included in a special “Firefox End of Year Add-on Collection” that will be promoted months after the end of the Contest through the following channels the Add-on manager, the Add-ons gallery, Mozilla’s Facebook page, the Rock Your Firefox blog, Mozilla s Twitter feed, and perhaps other channels. 一般的な賞の条件 Sponsor reserves the right to substitute one form of promotion for another of equal or greater value in its sole discretion. 勝者の通知/検証 (意訳) 勝者には2011/11/14にemailが来る。10日以内に宣誓記述書を返すこと。未成年の場合は親がサインして。5日以内に返信が無ければ勝者は別の人になるよ。 The winners will be notified by email on or about November 14, 2011. Each potential winner may be required to sign and return to Sponsor an affidavit of eligibility and liability/publicity release, where lawful, within ten (10) days of the date of winning notification. If any winner is a minor under the laws of his/her place of residence, all documents must be signed by a parent or legal guardian. If a winner cannot be notified within five (5) days after his or her selection, or in the event of non-compliance with any of these requirements, the prize may be forfeited, and another Entry selected as a winner. 勝者のエントリーの情報と名前を使用する許可 (意訳) あなたの名前や写真(提供してもらえれば)は法律に違反しない範囲で宣伝に使わせてもらうよ。 By entering, you agree that Sponsor and its designees may use your name, photo (if provided), screen shots, and basic information about you and your Entry that you submit in any media now known or hereafter developed for promotional and/or publicity purposes, unless prohibited by law. You also agree to participate in and cooperate with any promotional activity and/or publicity relating to the Contest as the Sponsor shall reasonably request from time to time. 責任のリリース By participating, you release the Sponsor and its subsidiaries, affiliates, partners, employees, directors, agents, advertising agencies, and all others associated with the development and execution of this Contest, from and against any and all injury, loss or damage caused or claimed to be caused by your participation in the Contest and/or the acceptance, awarding, receipt, use and/or misuse of the prize, and you agree that these entities are in no way responsible for any warranty, representation, or guarantee, expressed or implied, in fact or in law, relating to the Contest and/or the awarding of any prize except as may be expressly set forth in these Official Rules. You also agree to hold harmless Sponsor, its officers, directors, employees, divisions, affiliates, subsidiaries, and advertising and promotional agencies, from any claim by any third party relating to any rights in the Entry you submitted. 表明および保証 By entering, you warrant and represent that (a) you are the sole and exclusive owner (and free of any adverse claim by any person, firm, or corporation) of all intellectual property rights in and to the Entry (exclusive of Mozilla’s intellectual property rights); (b) the Entry is original and the use of the Entry as described in these Rules will not infringe the proprietary rights, including without limitation the intellectual property rights, of any third party; (c) the use of the Entry, as described in these Rules, will be in compliance with any third-party licenses pertaining to the Entry; (d) the Entry is not obscene or libelous, or does not violate any rights of any third party, including but not limited to rights of privacy or publicity; (e) the Entry does not target anyone because of his or her membership in a certain social group, including race, gender, color, religion, belief, sexual orientation, disability, ethnicity, nationality, age, gender identity, or political affiliation, and does not contain a symbolic representation of any group that targets anyone because of his or her membership in a certain social group; (f) you have accurately categorized and described the type and nature of the Entry; (g) the Entry does not contain any virus, spyware, malware, trap door, worm, or any other device, mechanism or code that is injurious or damaging to software or hardware used in conjunction with the Entry; (h) the Entry and its use as described in these Rules will not violate any federal, provincial, state or local laws or ordinances; (i) the Entry is consistent with these Rules; and (j) you have the right to grant to Sponsor and its designees the license granted below. By entering you agree to be bound by these Official Rules, including all eligibility requirements and all decisions of Sponsor, which are final and binding in all matters relating to the Contest. 知的財産 (意訳)あなたの書いたコードの権利はあなたにあるよ、等。 Your Entries shall remain your exclusive property. The code you write is yours. In order to enter the Contest, your Entry must have been uploaded to Mozilla’s Add-ons gallery. You can make your Entry available under the license of your choosing as further explained on the Add-ons site. We encourage entrants to open source their code, but that is your decision. Mozilla’s Trademarks The names Mozilla and Firefox, as well as the Mozilla logo, Firefox logo, and the red lizard logo are all registered trademarks of the Mozilla Foundation in the U.S. and several other countries. Any use of those or any other Sponsor (or Mozilla Foundation) trademark, trade name or logo must comply with the Mozilla Trademark Policies as posted at http //www.mozilla.org/foundation/trademarks/. 免責事項 Sponsor is not responsible for (i) lost, late, misdirected, damaged, garbled or illegible entries; (ii) error, omission, interruption, deletion, defect, delay in operations or transmission, theft or destruction or unauthorized access to or alterations of entry materials, or for technical, network, telephone equipment, electronic, computer, hardware or software malfunctions of any kind, or inaccurate transmission of or failure to receive entry information by Sponsor on account of technical problems or traffic congestion on the Internet or at any web site or any combination thereof; or (iii) any injury or damage to entrant’s or any other person’s computer related to or resulting from participating in the Contest. Sponsor reserves the right to (i) permanently disqualify from any Contest it sponsors any person it believes has intentionally violated these official rules; and (ii) suspend, modify or terminate the Contest if Sponsor believes, in its sole discretion, that malfunction, error, disruption or damage is impairing or will impair the administration, security, fairness, or integrity of the Contest. If the Contest is terminated before the scheduled end of the Contest Period, the Sponsor will determine the winners from all eligible entries received as of the termination date in a fair and equitable manner as determined by Sponsor in its reasonable discretion. Persons found tampering with or abusing any aspect of the Contest, or whom the Sponsor believes to be causing or attempting or intending to cause any malfunction, error, disruption, or damage will be disqualified. The Sponsor reserves the right to disqualify any unauthorized entries or votes, including, without limitation, any entries or votes made through robotic, automatic, mechanical, programmed or similar multiple-entry, or entry/vote duplication, method and to disqualify any person or entity using such a method. 紛争 These Official Rules and any disputes relating in any way to the Contest shall be governed exclusively by the laws of the State of California, USA, without regard to principles of conflicts of laws. By participating, you further agree that (i) any and all disputes, claims, and causes of action arising out of or in connection with the Contest, or any prizes awarded, shall be resolved individually without resort to any form of class action; (ii) any claims, judgments and awards shall be limited to actual out-of-pocket costs incurred, including costs associated with entering the Contest, but in no event attorney’s fees; and (iii) under no circumstances will any entrant be permitted to obtain any award for, and entrant hereby waives all rights to claim, punitive, incidental or consequential damages and any and all rights to have damages multiplied or otherwise increased and any other damages, other than damages for actual out-of-pocket expenses. 受賞者の名前 (意訳)受賞者と審査員の名前リストが欲しい人は、手紙を出せば返信してくれるみたい。 For the names of the winners and/or the judges send a self-addressed, stamped envelope to "FF END OF YEAR ADD-ONS COLLECTION CONTEST Winner List", attn Mozilla Contests, 650 Castro Street, Suite 300, Mountain View, CA 94041. Requests must be received (not just postmarked) by April 30, 2012.
https://w.atwiki.jp/mcmaster/pages/87.html
Maxim Integrated Products (MAXIM) Maxim Integrated Products (MAXIM)のマーキングコード一覧です。 マーキングコードは同じでも製品型番が異なるものもありますので外形、特性などをデータシートで比べることをおすすめします。 マキシム製品は下記リンクでトップマークコード(マーキングコード)から製品型番を検索できます。 また各製品を検索した上で「すべて表示」タブをクリックすると、製品に対応するトップマークコード一覧へのリンクが表示されます。 マキシム トップマークコード検索(日本語) MAXIM Topmark Code search (English) メーカーのwebサイトなど(web site,etc) MAXIM Integrated Products (Japanese) MAXIM Integrated Products (English) マーキングコードリスト * , ** , *** , ****,_=date code,Lot No. etc. #=hfe rank. MARKINGCODE PART No.;Grade etc. MAKER PACKAGENAME MAKERPACKAGE NAME PINCOUNT etc. AAZV MAX4475AUT+T MAXIM SOT-23 SOT23 6 Low-Noise, Low-Distortion,Wide-Band,Rail-to-Rail Op Amp. AMV MAX6465XR26 MAXIM SC-70 3 Ultra-Low-Power Voltage Detectors and µP Supervisory Circuit. AMV MAX6736XKSTD3 MAXIM SC-70 5 Low-Power Dual-/Triple-Voltage SC70 µP Supervisory Circuit. AMV MAX7394TTWV MAXIM 6/THIN QFN (Dual) 6 Precision Silicon Oscillators with Enable or Autoenable. AMV MAX8727TB MAXIM 10/THIN QFN (Dual) 10 TFT LCD STEP UP DOWN DC-DC CONVERTER. AMW MAX8727A-TB MAXIM 10/THIN QFN (Dual) 10 TFT LCD STEP UP DOWN DC-DC CONVERTER. ATV MAX8727B-TB MAXIM 10/THIN QFN (Dual) 10 TFT LCD STEP UP DOWN DC-DC CONVERTER. ABZD MAX1615EUK-T MAXIM SOT23-5 5 High-Voltage, Low-Power Linear Regulators. ABZD MAX1615EUK+T MAXIM SOT23-5 5 High-Voltage, Low-Power Linear Regulators. ABZE MAX1616EUK-T MAXIM SOT23-5 5 High-Voltage, Low-Power Linear Regulators. ABZE MAX1616EUK+T MAXIM SOT23-5 5 High-Voltage, Low-Power Linear Regulators. +ACQQ MAX4475AUT/V+T MAXIM SOT-23 SOT23 6 Low-Noise, Low-Distortion,Wide-Band,Rail-to-Rail Op Amp. +ADD MAX4475ATT+T MAXIM - TDFN-EP 6 Low-Noise, Low-Distortion,Wide-Band,Rail-to-Rail Op Amp. リンク MARKING CODE一覧
https://w.atwiki.jp/triman/pages/37.html
Hulu YouTube Google Video
https://w.atwiki.jp/mhta/
管理者信息/管理者情報/Manager Information 这是由MH_TheOne个人统计的非官方怪物猎人竞速TA统计表wiki。 このwikiはかみむ ライト個人提供するの非公式モンスターハンターTAwikiです。 This is unofficial Monster Hunter speedrun TA statistics table for my personal statistics wiki, by MH_TheOne. 目的是为了个人查阅以及学习,不具有官方效力。 目的は个人の査阅と学习のためです。公式効力を代表することはない。 The purpose of built this website is for personal reference and learning. It does not have official effect. 收录版本/収録バージョン/Version MHXX(MHGU)TA rule MH4G(MH4U)TA rule MHP3(MHP3HD)TA rule MHP2G(MHFU)TA rule 具体的规则请见详情页面。 具体的なルールは詳細ページを参照してください。 Please refer to the details page for specific rules. 目的/Purpose (按照重要度进行排序): 1.是为了满足个人对这款游戏的热爱,以及个人兴趣。方便个人查阅和学习不同的成绩。 2.在与同伴进行交流和讨论的过程中可以更加的方便。 3.在怪物猎人以前的TA网站停止更新以后,提供给想要继续参与竞速的玩家一个可以进行登记和参考网页页面。 (重要度でソート): 1.このゲームに対する自分自身な愛と、自分自身な興味を満たすためです。自分で調べたり勉強したりするのに便利です。 2.仲間とのコミュニケーションやディスカッションの過程で、より便利になることができます。 3.モンスターハンター以前のTAサイトの更新が停止した後も、タイムアタックに参加し続けたいプレイヤーに参照や登録できるページを提供します。 (sorted by importance) 1. It is to satisfy my personal love and interest in this game. Convenient for individuals to access and learn different records. 2. It can provide convenient for communicating and discussing with peers. 3. After the previous TA website of Monster Hunter stopped updating, provide players who want to continue participating in speedrun with a reference and registration webpage page. 管理者联系方式/管理者連絡先/Contact Information 本网页会慢慢的收录目所能及的,以前所有的TA记录。因为这是一个非常浩大的工程量,所以如果完成的很慢,请不要催促。 如果您希望删除或添加您的记录,请私信联系我(*但不代表一定会被同意): Blibili このページには、以前のすべてのTAレコードがゆっくりと収録されています。これは非常に膨大な工事量なので、完成が遅い場合は催促しないでください。 レコードを削除または追加するには、DMで次のように連絡してください(*でも必ず同意するとは限らない): This webpage will gradually include all previous TA records within the reach of the directory. Because this is a very large project quantity, please do not rush if the completion is slow. If you wish to delete or add your records, please contact me privately(*But it doesn't mean I will definitely agree) Twitter 声明/ステートメント/Statement ※本wiki是非官方的wiki。不保证信息的妥当性和准确性,不承担任何责任。 ※使用本wiki所产生的任何损失本网站都不补偿。 ※关于如何使用本网站提供的数据是自己的责任,请注意。 ※另外,该wiki及wiki管理员与株式会社卡普空完全没有关系。 ※私は日本人ではないので、日本語の翻訳は少し間違っているかもしれませんが、ツイッターに来て教えてください。 ※当wikiは非公式のwikiです。情報の妥当性や正確性について保証するものではなく、一切の責任を負いかねます。 ※当wikiを利用することによって生じるいかなる損害も当サイトでは補償致しません。 ※ご利用につきましては自己責任となりますのでご注意ください。 ※また、当wikiおよびwiki管理人は株式会社カプコンとは一切関係がありません。 ※Because I am not a native English speaker, there may be some slight errors in English translation. Welcome to Twitter to let me know. ※This wiki is unofficial. We do not guarantee the appropriateness and accuracy of the information and assume no responsibility. ※Any losses incurred by using this wiki will not be compensated by this website. ※Please note that the use is your own responsibility. ※In addition, the wiki and its administrator have no relationship with CAPCOM™.
https://w.atwiki.jp/asterisk99/pages/579.html
original (2019/05/14 付) Google 翻訳 (2019/05/28 付) ------------------------------------ ------------------------------------ ### For training Neural net based LSTM Tesseract 4.00 see Training Tesseract 4.00 ###ニューラルネットベースのLSTM Tesseract 4.00をトレーニングするにはTraining Tesseract 4.00を参照してください。 ------------------------------------- ------------------------------------- ### How to use the tools provided to train Tesseract 3.00–3.02 for a new language? ###新しい言語のためにTesseract 3.00–3.02を訓練するために提供されたツールをどのように使いますか? NOTE These instructions are for older versions of Tesseract. Training instructions for the more recent versions are [[here Training-Tesseract]]. 注 これらの説明は古いバージョンのTesseract用です。より新しいバージョンのためのトレーニング指示は[[here Training-Tesseract]]です。 * Introduction * はじめに * Background and Limitations * 背景と制限 * Data files required * 必要なデータファイル * Requirements for text input files * テキスト入力ファイルの要件 * How little can you get away with? * あなたはどのくらい逃げることができますか? * Training Procedure * トレーニング手順 * Generate Training Images * トレーニング画像の生成 * Make Box Files * ボックスファイルの作成 * Bootstrapping a new character set * 新しい文字セットのブートストラップ * Tif/Box pairs provided! * Tif / Boxペアが提供されました! * Run Tesseract for Training * トレーニングのためにTesseractを実行する * Compute the Character Set * 文字セットを計算する * font_properties (new in 3.01) * font_properties(3.01の新機能) * Clustering * クラスタリング * shapeclustering (new in 3.02) * shapeclustering(3.02の新機能) * mftraining * mftraining * cntraining * cntraining * Dictionary Data (Optional) * [辞書データ(任意)](#辞書データ - 任意) * The last file (unicharambigs) * 最後のファイル(unicharambigs) * Putting it all together * 全部まとめて # Introduction # 前書き Tesseract 3.0x is fully trainable. This page describes the training process, provides some guidelines on applicability to various languages, and what to expect from the results. Tesseract 3.0xは完全にトレーニング可能です。このページでは、トレーニングプロセスについて説明し、さまざまな言語への適用性に関するガイドライン、および結果から何を期待するかについて説明します。 3rd Party training tools are also available for training. サードパーティのトレーニングツールもトレーニングに利用できます。 Please check the list of languages for which traineddata is already available as of release 3.04 before embarking on training. トレーニングを開始する前に、traineddataがリリース3.04以降ですでに使用可能である言語のリストを確認してください。 # Background and Limitations #背景と制限 Tesseract was originally designed to recognize English text only. Efforts have been made to modify the engine and its training system to make them able to deal with other languages and UTF-8 characters. Tesseract 3.0 can handle any Unicode characters (coded with UTF-8), but there are limits as to the range of languages that it will be successful with, so please take this section into account before building up your hopes that it will work well on your particular language! Tesseractはもともと英語のテキストだけを認識するように設計されました。エンジンとそのトレーニングシステムを変更して、他の言語とUTF-8文字を処理できるようにする努力がなされています。 Tesseract 3.0は(UTF-8でコード化された)どんなユニコード文字も扱うことができますが、それがうまくいく言語の範囲に関して制限があるので、それがうまくいくことを期待する前にこのセクションを考慮に入れてくださいあなたの特定の言語! Tesseract 3.01 added top-to-bottom languages, and Tesseract 3.02 added Hebrew (right-to-left). Tesseract currently handles scripts like Arabic and Hindi with an auxiliary engine called cube (included in Tesseract 3.0+). Traineddata for additional [languages] (https //github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages) has been provided by Google for the 3.04 release. Tesseract 3.01では上から下への言語が追加され、Tesseract 3.02ではヘブライ語(右から左へ)が追加されました。 Tesseractは現在、cubeと呼ばれる補助エンジン(Tesseract 3.0以降に含まれています)を使ってアラビア語やヒンディー語などのスクリプトを処理します。追加の[言語]のトレーニングデータ(https //github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages)が3.04リリース用にGoogleから提供されています。 Tesseract is slower with large character set languages (like Chinese), but it seems to work OK. Tesseractは(中国語のような)大きな文字セット言語では遅くなりますが、うまくいくようです。 Tesseract needs to know about different shapes of the same character by having different fonts separated explicitly. The number of fonts is limited to 64 fonts. Note that runtime is heavily dependent on the number of fonts provided, and training more than 32 will result in a significant slow-down. Tesseractは、異なるフォントを明示的に分離することによって、同じ文字の異なる形状について知る必要があります。フォント数は64フォントに制限されています。実行時間は提供されるフォントの数に大きく依存します。32以上のトレーニングは大幅に遅くなります。 For versions 3.00/3.01, any language that has different punctuation and numbers is going to be disadvantaged by some of the hard-coded algorithms that assume ASCII punctuation and digits. [Fixed in 3.02] バージョン3.00 / 3.01では、異なる句読点と数字を持つ言語は、ASCII句読点と数字を想定したハードコードされたアルゴリズムによって不利になるでしょう。 [3.02で修正] You need to run all commands in the same folder where your input files are located. 入力ファイルが置かれているのと同じフォルダーですべてのコマンドを実行する必要があります。 # Data files required #必要なデータファイル To train for another language, you have to create some data files in the tessdata subdirectory, and then crunch these together into a single file, using combine_tessdata. The naming convention is languagecode.file_name Language codes for released files follow the ISO 639-3 standard, but any string can be used. The files used for English (3.00) are 別の言語を訓練するには、いくつかのデータファイルを tessdataサブディレクトリに作成してから、それらをcombine_tessdataを使用して1つのファイルにまとめる必要があります。命名規則は languagecode.file_nameですリリースされたファイルの言語コードはISO 639-3規格に従いますが、どんな文字列でも使用できます。英語(3.00)に使用されるファイルは次のとおりです。 * tessdata/eng.config * tessdata / eng.config * tessdata/eng.unicharset * tessdata / eng.unicharset * tessdata/eng.unicharambigs * tessdata / eng.unicharambigs * tessdata/eng.inttemp * tessdata / eng.inttemp * tessdata/eng.pffmtable * tessdata / eng.pffmtable * tessdata/eng.normproto * tessdata / eng.normproto * tessdata/eng.punc-dawg * tessdata / eng.punc-dawg * tessdata/eng.word-dawg * tessdata / eng.word-dawg * tessdata/eng.number-dawg * tessdata / eng.number-dawg * tessdata/eng.freq-dawg * tessdata / eng.freq-dawg ... and the final crunched file is ...そして最後のクランチファイルは次のとおりです。 * tessdata/eng.traineddata * tessdata / eng.traineddata and そして * tessdata/eng.user-words * tessdata / eng.user-words may still be provided separately. まだ別に提供されるかもしれません。 The traineddata file is simply a concatenation of the input files, with a table of contents that contains the offsets of the known file types. See ccutil/tessdatamanager.h in the source code for a list of the currently accepted filenames. NOTE the files in the traineddata file are different from the list used prior to 3.00, and will most likely change, possibly dramatically in future revisions. 訓練されたデータファイルは単に既知のファイルタイプのオフセットを含む目次を持つ入力ファイルの連結です。現在受け入れられているファイル名のリストについては、ソースコードのccutil / tessdatamanager.hを参照してください。 NOTE traineddataファイルのファイルは3.00以前に使用されていたリストとは異なり、おそらく将来の改訂で劇的に変わるでしょう。 ## Requirements for text input files ##テキスト入力ファイルの要件 Text input files (lang.config, lang.unicharambigs, font_properties, box files, wordlists for dictionaries...) need to meet these criteria テキスト入力ファイル(lang.config、lang.unicharambigs、font \ _properties、ボックスファイル、辞書の単語リスト...)は、次の基準を満たす必要があります。 * ASCII or UTF-8 encoding without BOM * [BOM]なしのASCIIまたはUTF-8エンコーディング(http //ja.wikipedia.org/wiki/Byte_order_mark) * Unix end-of-line marker ( \n ) * Unix 行末マーカー( \ n ) * The last character must be an end of line marker ( \n ). Some text editors will show this as an empty line at the end of file. If you omit this you will get an error message containing "last_char == \n Error Assert failed..." *最後の文字は行末マーカー( \ n )でなければなりません。テキストエディタの中にはこれをファイルの最後に空行として表示するものがあります。これを省略すると、 "last \ _char == \ n エラー アサートに失敗しました..."を含むエラーメッセージが表示されます。 ## How little can you get away with? ##あなたはどのくらい逃げることができますか? You must create unicharset, inttemp, normproto, pffmtable using the procedure described below. If you are only trying to recognize a limited range of fonts (like a single font for instance), then a single training page might be enough. The other files no longer need to be provided, but will most likely improve accuracy, depending on your application. あなたは以下で説明される手順を使って unicharset、inttemp、 normproto、pffmtableを作成しなければなりません。限られた範囲のフォント(たとえば単一のフォントなど)のみを認識しようとしている場合は、単一のトレーニングページで十分かもしれません。他のファイルを提供する必要はなくなりましたが、アプリケーションによっては正確性が向上する可能性があります。 # Training Procedure #トレーニング手順 Some of the procedure is inevitably manual. As much automated help as possible is provided. The tools referenced below are all built in the training subdirectory. 手順のいくつかは必然的に手動です。できるだけ多くの自動ヘルプが提供されています。下記のツールはすべてtrainingサブディレクトリに構築されています。 ## Generate Training Images ##トレーニング画像を生成する The first step is to determine the full character set to be used, and prepare a text or word processor file containing a set of examples. The most important points to bear in mind when creating a training file are 最初のステップは、使用する全文字セットを決定し、一連の例を含むテキストまたはワードプロセッサファイルを準備することです。トレーニングファイルを作成する際に留意する必要がある最も重要な点は次のとおりです。 * Make sure there are a minimum number of samples of each character. 10 is good, but 5 is OK for rare characters. *各文字のサンプル数が最小であることを確認してください。 10が良いですが、5はまれな文字のためにOKです。 * There should be more samples of the more frequent characters - at least 20. *より頻繁な文字のサンプルがもっとあるはずです - 少なくとも20。 * Don t make the mistake of grouping all the non-letters together. Make the text more realistic. For example, The quick brown fox jumps over the lazy dog. 0123456789 !@#$%^ (),.{} /? is terrible. Much better is The (quick) brown {fox} jumps! over the $3,456.78 lazy #90 dog duck/goose, as 12.5% of E-mail from aspammer@website.com is spam? This gives the textline finding code a much better chance of getting sensible baseline metrics for the special characters. *すべての非文字を一緒にグループ化するのを間違えないでください。テキストをよりリアルにします。例えば、速い茶色のキツネは怠惰な犬を飛び越えます。 0123456789!@#$%^&()、。{}<> /?はひどいです。はるかに良いです (速い)茶色の{fox}はジャンプします! $ 3,456.78以上の lazy> aspammer@website.comからの電子メールの12.5%がスパムであるため、#90犬&アヒル/ガチョウ?**これにより、テキスト検索コードで特殊文字の適切なベースラインメトリックを取得できる可能性が大幅に高まります。 * [Only relevant to version 3.00, fixed in 3.01] It is sometimes important to space out the text a bit when printing, so up the inter-character and inter-line spacing in your word processor. Not spacing text out sufficiently will cause "FAILURE! box overlaps no blobs or blobs in multiple rows" errors during tr file generation, which leads to FATALITY - 0 labelled samples of "x", which leads to "Error X classes in inttemp while unicharset contains Y unichars" and you can t use your nice new data files. * [バージョン3.00にのみ関連し、3.01で修正されました]印刷するときにテキストを少し離すことが重要な場合がありますので、ワープロの文字間隔と行間を空けてください。テキストの間隔を十分に空けないと、trファイルの生成時に "FAILURE!boxが複数行のblobやblobと重ならない"エラーが発生し、FATALITY - 0のラベル付きサンプル "x"が表示されます。 unicharsetはYのunicharsを含んでいます "そしてあなたはあなたの素晴らしい新しいデータファイルを使うことができません。 * The training data should be grouped by font. Ideally, all samples of a single font should go in a single tiff file, but this may be multi-page tiff (if you have libtiff or leptonica installed), so the total training data in a single font may be many pages and many 10s of thousands of characters, allowing training for large-character-set languages. *トレーニングデータはフォントごとにまとめてください。理想的には、単一のフォントのすべてのサンプルは単一のTIFFファイルに入れるべきですが、これは複数ページのTIFF(libtiffまたはleptonicaがインストールされている場合)なので、単一フォントの合計トレーニングデータは多数のページと数10になります大規模な文字セットの言語のトレーニングが可能 * There is no need to train with multiple sizes. 10 point will do. (An exception to this is very small text. If you want to recognize text with an x-height smaller than about 15 pixels, you should either train it specifically or scale your images before trying to recognize them.) *複数のサイズで訓練する必要はありません。 10点になります。 (これに対する例外は非常に小さいテキストです。もしあなたが約15ピクセルよりも小さいxの高さを持つテキストを認識したいのなら、それらを認識することを試みる前にあなたはそれを特に訓練するかあなたの画像を拡大縮小 * DO NOT MIX FONTS IN AN IMAGE FILE (In a single .tr file to be precise.) This will cause features to be dropped at clustering, which leads to recognition errors. * 画像ファイルにフォントを混ぜない(正確に言えば単一の.trファイルに)これはクラスタリングの際に特徴が落とされて認識エラーを引き起こす原因となります。 * The example boxtiff files on the downloads page will help if you are not sure how to format your training data. *ダウンロードページのboxtiffファイルの例は、トレーニングデータのフォーマット方法がわからない場合に役立ちます。 Next print and scan (or use some electronic rendering method) to create an image of your training page. Up to 64 training files can be used (of multiple pages). It is best to create a mix of fonts and styles (but in separate files), including italic and bold. 次に印刷してスキャンし(または何らかの電子レンダリング方法を使用して)、トレーニングページの画像を作成します。最大64個のトレーニングファイル(複数ページ)を使用できます。イタリック体とボールド体を含め、フォントとスタイルを組み合わせて(ただし別々のファイルに)作成するのが最善です。 NOTE [Only relevant to version 3.00, fixed in 3.01] Training from real images is actually quite hard, due to the spacing-out requirements. It is much easier if you can print/scan your own training text. NOTE [バージョン3.00にのみ関連し、3.01で修正されました]実際の画像からのトレーニングは、間隔を空ける必要があるため、実際にはかなり困難です。あなたがあなた自身のトレーニングテキストを印刷/スキャンすることができればそれははるかに簡単です。 You will also need to save your training text as a UTF-8 text file for use in the next step where you have to insert the codes into another file. 次のステップでコードを別のファイルに挿入する必要がある場合は、トレーニングテキストをUTF-8テキストファイルとして保存する必要もあります。 Clarification for large amounts of training data 大量のトレーニングデータの説明 The 64 images limit is for the number of FONTS. Each font should be put in a single multi-page tiff and the box file can be modified to specify the page number for each character after the coordinates. Thus an arbitrarily large amount of training data may be created for any given font, allowing training for large character-set languages. An alternative to multi-page tiffs is to create many single-page tiffs for a single font, and then you must cat together the tr files for each font into several single-font tr files. In any case, the input tr files to mftraining must each contain a single font. 64イメージの制限はフォントの数です。各フォントは1つのマルチページTIFFに入れられ、ボックスファイルは座標の後の各文字のページ番号を指定するように変更することができます。したがって、任意のフォントに対して任意の量のトレーニングデータを作成でき、大きな文字セット言語のトレーニングが可能になります。複数ページのTIFFに代わる方法は、単一のフォントに対して複数の単一ページのTIFFを作成することです。その後、各フォントのtrファイルをいくつかの単一フォントのtrファイルにまとめる必要があります。いずれにせよ、mftrainingへの入力trファイルはそれぞれ単一のフォントを含まなければなりません。 ## Make Box Files ##ボックスファイルを作る For the next step below, Tesseract needs a box file to go with each training image. The box file is a text file that lists the characters in the training image, in order, one per line, with the coordinates of the bounding box around the image. Tesseract 3.0 has a mode in which it will output a text file of the required format, but if the character set is different to its current training, it will naturally have the text incorrect. So the key process here is to manually edit the file to put the correct characters in it. 以下の次のステップでは、Tesseractは各トレーニング画像を処理するための「ボックス」ファイルを必要とします。ボックスファイルは、トレーニング画像内の文字を1行に1つずつ順番に、画像の周囲の境界ボックスの座標とともにリストしたテキストファイルです。 Tesseract 3.0には、必要な形式のテキストファイルを出力するモードがありますが、文字セットが現在のトレーニングと異なる場合、当然テキストが正しくありません。そのため、ここで重要なプロセスは、ファイルを手動で編集して正しい文字を入れることです。 Run Tesseract on each of your training images using this command line このコマンドラインを使用して、各トレーニング画像に対してTesseractを実行します。 ` | ` tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox tesseract [言語]。[フォント名] .exp [数値] .tif [言語]。[フォント名] .exp [数値] batch.nochop makebox ` | ` e.g. 例えば ` | ` tesseract eng.timesitalic.exp0.tif eng.timesitalic.exp0 batch.nochop makebox tesseract eng.timesitalic.exp0.tif eng.timesitalic.exp0 batch.nochop makebox ` | ` Now the hard part. You have to edit the file [lang].[fontname].exp[num].box and put the UTF-8 codes for each character in the file at the start of each line, in place of the incorrect character put there by Tesseract. Example The distribution includes an image eurotext.tif. Running the above command produces a text file that includes the following lines (lines 141-154) 今難しい部分です。あなたはファイル [lang]。[fontname] .exp [num] .boxを編集し、そこに置かれた誤った文字の代わりに各行の始めにファイルの各文字のためのUTF-8コードを置かなければなりませんTesseractによって。例 配布には画像eurotext.tifが含まれています。上記のコマンドを実行すると、次の行を含むテキストファイルが生成されます(行141-154)。 ` | ` s 734 494 751 519 0 s 734 494 751 519 0 p 753 486 776 518 0 p 753 486 776 518 0 r 779 494 796 518 0 r 779 494 796 518 0 i 799 494 810 527 0 i 799 494 810 527 0 n 814 494 837 518 0 n 814 494 837 518 0 g 839 485 862 518 0 g 839 485 862 518 0 t 865 492 878 521 0 t 865 492 878 521 0 u 101 453 122 484 0 u 101 453 122 484 0 b 126 453 146 486 0 b 126 453 146 486 0 e 149 452 168 477 0 e 149 452 168 477 0 r 172 453 187 476 0 r 172 453 187 476 0 d 211 451 232 484 0 d 211 451 232 484 0 e 236 451 255 475 0 e 236 451 255 475 0 n 259 452 281 475 0 n 259 452 281 475 0 ` | ` Since Tesseract was run in English mode, it does not correctly recognize the umlaut. This character needs to be corrected using an editor that supports UTF-8. In this case the u needs to be changed to ü. Tesseractは英語モードで実行されたので、ウムラウトを正しく認識しません。この文字は、UTF-8をサポートするエディタを使用して修正する必要があります。この場合、 uはüに変更する必要があります。 Recommended editors that support UTF-8 Notepad++, gedit, KWrite, Geany, Vim, Emacs, Atom, TextMate, Sublime Text. Choose one! Linux and Windows both have a character map that can be used for copying characters that cannot be typed. UTF-8をサポートする推奨エディタ Notepad ++、gedit、KWrite、Geany、Vim、Emacs、Atom、TextMate、Sublime Text。選択してくださいLinuxとWindowsの両方に、入力できない文字をコピーするために使用できる文字マップがあります。 In theory, each line in the box file should represent one of the characters from your training file, but if you have a horizontally broken character, such as the lower double quote „ it will probably have 2 boxes that need to be merged! 理論的には、ボックスファイルの各行はトレーニングファイルの文字の1つを表す必要がありますが、下二重引用符のように水平方向に分割された文字がある場合は、結合する必要があるボックスが2つあります。 Example lines 116-129 例 116〜129行目 ` | ` D 101 504 131 535 0 D 101 504 131 535 0 e 135 502 154 528 0 e 135 502 154 528 0 r 158 503 173 526 0 r 158 503 173 526 0 , 197 498 206 510 0 、197 498 206 510 0 , 206 497 214 509 0 、206 497 214 509 0 s 220 501 236 526 0 s 220 501 501 236 526 0 c 239 501 258 525 0 c 239 501 258 525 0 h 262 502 284 534 0 h 262 502 284 534 0 n 288 501 310 525 0 n 288 501 310 525 0 e 313 500 332 524 0 e 313 500 332 524 0 l 336 501 347 534 0 l 336 501 347 534 0 l 352 500 363 532 0 l 352 500 363 532 0 e 367 499 386 524 0 e 367 499 386 524 0 ” 389 520 407 532 0 ” 389 520 407 532 0 ` | ` As you can see, the low double quote character has been expressed as two single commas. The bounding boxes must be merged as follows ご覧のように、低い二重引用符は2つのシングルコンマとして表現されています。境界ボックスは次のようにマージする必要があります。 * First number (left) take the minimum of the two lines (197) *最初の数字(左)は2行のうち最小のものをとります(197) * Second number (bottom) take the minimum of the two lines (497) * 2番目の数字(下)は2行のうち最小の値を取ります(497) * Third number (right) take the maximum of the two lines (214) * 3番目の数字(右)は2行のうち最大のものをとる(214) * Fourth number (top) take the maximum of the two lines (510) * 4番目の数字(上)は最大2行(510)を取ります This gives これは与える ` | ` D 101 504 131 535 0 D 101 504 131 535 0 e 135 502 154 528 0 e 135 502 154 528 0 r 158 503 173 526 0 r 158 503 173 526 0 „ 197 497 214 510 0 197 497 214 510 0 s 220 501 236 526 0 s 220 501 501 236 526 0 c 239 501 258 525 0 c 239 501 258 525 0 h 262 502 284 534 0 h 262 502 284 534 0 n 288 501 310 525 0 n 288 501 310 525 0 e 313 500 332 524 0 e 313 500 332 524 0 l 336 501 347 534 0 l 336 501 347 534 0 l 352 500 363 532 0 l 352 500 363 532 0 e 367 499 386 524 0 e 367 499 386 524 0 ” 389 520 407 532 0 ” 389 520 407 532 0 ` | ` If you didn t successfully space out the characters on the training image, some may have been joined into a single box. In this case, you can either remake the images with better spacing and start again, or if the pair is common, put both characters at the start of the line, leaving the bounding box to represent them both. (As of 3.00, there is a limit of 24 bytes for the description of a "character". This will allow you between 6 and 24 unicodes to describe the character, depending on where your codes sit in the unicode set. If anyone hits this limit, please file an issue describing your situation.) トレーニング画像上の文字の間隔をうまく調整できなかった場合は、いくつかが1つのボックスに結合されている可能性があります。この場合は、間隔を空けてイメージを作り直してやり直すか、ペアが一般的な場合は、両方の文字を表すために境界ボックスを残して両方の文字を行頭に配置します。 (3.00以降、 "文字"の記述には24バイトの制限があります。これにより、コードがUnicodeセットのどこにあるかに応じて、6から24のUnicodeで文字を記述できます。制限してください、あなたの状況を説明する問題を提出してください。) Note that the coordinate system used in the box file has (0,0) at the bottom-left. Note ボックスファイルで使用されている座標系は左下に(0,0)を持っています。 The last number on each line is the page number (0-based) of that character in the multi-page tiff file. 各行の最後の番号は、マルチページTIFFファイル内のその文字のページ番号(0から始まる)です。 There are several visual tools for editing box file - please check AddOns wiki. ボックスファイルを編集するための視覚的なツールがいくつかあります - AddOns wikiを確認してください。 ### Bootstrapping a new character set ###新しい文字セットをブートストラップする If you are trying to train a new character set, it is a good idea to put in the effort on a single font to get one good box file, run the rest of the training process, and then use Tesseract in your new language to make the rest of the box files as follows もしあなたが新しい文字セットを訓練しようとしているのなら、一つのフォントに努力して一つの良いボックスファイルを作り、残りのトレーニングプロセスを実行し、そしてあなたの新しい言語でTesseractを使うのが良い考えです。その他のボックスファイルは次のとおりです。 ` | ` tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] -l yournewlanguage batch.nochop makebox tesseract [言語]。[フォント名] .exp [数値] .tif [言語]。[フォント名] .exp [数値] -l yournewlanguage batch.nochop makebox ` | ` This should make the 2nd box file easier to make, as there is a good chance that Tesseract will recognize most of the text correctly. You can always iterate this sequence adding more fonts to he training set (i.e. to the command line of mftraining and cntraining below) as you make them, but note that there is no incremental training mode that allows you to add new training data to existing sets. This means that each time you run mftraining and cntraining you are making new data files from scratch from the tr files you give on the command line, and these programs cannot take an existing intproto / pffmtable / normproto and add to them directly. Tesseractがほとんどのテキストを正しく認識する可能性が高いので、これは2番目のボックスファイルを作りやすくします。あなたがそれらを作るとき、あなたはいつも彼のトレーニングセット(すなわち、下記の mftrainingとcntrainingのコマンドライン)にさらにフォントを追加することでこのシーケンスを繰り返すことができます、しかしあなたが新しいトレーニングを加えることを可能にする増分トレーニングモードがない既存のセットへのデータ。つまり、 mftrainingとcntrainingを実行するたびに、コマンドラインで指定したtrファイルから最初から新しいデータファイルを作成します。これらのプログラムは、既存の intproto /pffmtable / normprotoを使用できません。と直接追加します。 ### Tif/Box pairs provided! ### Tif / Boxペアが提供されました! Some Tif/Box file pairs are on the downloads page. (Note the tiff files are G4 compressed いくつかの Tif / Boxファイルのペアはダウンロードページにあります。 (tiffファイルはG4圧縮されています。 to save space, so you will have to have libtiff or uncompress them first). You could スペースを節約するためには、libtiffを用意するか、最初にそれらを解凍する必要があります。あなたは出来る follow the following process to make better training data for your own language or あなた自身の言語のためのより良いトレーニングデータを作るために次のプロセスに従ってください。 subset of an existing language, or add different characters/shapes to an existing language 既存の言語のサブセット、または既存の言語に異なる文字/図形を追加します。 1. Filter the box files, keeping lines for only the characters you want. 1.ボックスファイルをフィルタして、必要な文字だけを表示するようにします。 1. Run tesseract for training (below). 1.トレーニングのためにtesseractを実行します(下記)。 1. Cat the .tr files from multiple languages for each font to get the character set that you want and add the .tr files from your own fonts or characters. 1.フォントごとに複数の言語の.trファイルを集めて、必要な文字セットを取得し、独自のフォントまたは文字から.trファイルを追加します。 1. Cat the filtered box files in an identical way to the .tr files for handing off to unicharset_extractor. 1. unicharset \ _extractorに引き渡すために、.trファイルと同じ方法でフィルタ処理されたボックスファイルをキャットします。 1. Run the rest of the training process. 1.残りのトレーニングプロセスを実行します。 Caution! This is not quite as simple as it sounds! cntraining and mftraining can only あぶない!これはそれほど簡単ではありません。 cntrainingとmftrainingは take up to 64 .tr files, so you must cat all the files from multiple languages for the 最大64個の.trファイルを使用できます。 same font together to make 64 language-combined, but font-individual files. 同じフォントを組み合わせて64の言語を組み合わせたファイルを作成できますが、フォントは個別のファイルになります。 The characters found in the tr files must match the sequence trファイルにある文字は、シーケンスと一致している必要があります。 of characters found in the box files when given to unicharset_extractor, so you have to unicharset \ _extractorに渡されたときにボックスファイルで見つかった文字の数 cat the box files together in the same order as the tr files. trファイルと同じ順序でボックスファイルをまとめてください。 The command lines for cn/mftraining and unicharset_extractor must be given the .tr cn / mftrainingおよびunicharset \ _extractorのコマンドラインには、.trを指定する必要があります。 and .box files (respectively) in the same order just in case you have different 異なる場合に備えて、ファイルと.boxファイル(それぞれ)は同じ順序で filtering for the different fonts. 異なるフォントをフィルタリングします。 There may be a program available to do all this and pick out the characters in これらすべてを行い、文字を抽出するために利用可能なプログラムがあるかもしれません。 the style of character map. This might make the whole thing easier. 文字マップのスタイルこれは全体を簡単にするかもしれません。 ## Run Tesseract for Training ##トレーニングのためにTesseractを実行する For each of your training image, boxfile pairs, run Tesseract in training mode トレーニング画像、ボックスファイルのペアごとに、Tesseractをトレーニングモードで実行します。 ` | ` tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] box.train tesseract [言語]。[フォント名] .exp [数値] .tif [言語]。[フォント名] .exp [数値] box.train ` | ` or または ` | ` tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] box.train.stderr tesseract [言語]。[フォント名] .exp [数値] .tif [言語]。[フォント名] .exp [数値] box.train.stderr ` | ` NOTE that although tesseract requires language data to be present for this step, the language data is not used, so English will do, whatever language you are training. NOTE tesseractはこのステップのために言語データが存在することを要求しますが、言語データは使用されないので、あなたが訓練しているどんな言語でも、英語はそうするでしょう。 The first form sends all the errors to a file named tesseract.log. The second form sends all errors to stderr. 最初の形式はすべてのエラーをtesseract.logという名前のファイルに送ります。 2番目の形式はすべてのエラーをstderrに送ります。 Note that the box filename must match the tif filename, including the path, or Tesseract won t find it. The output of this step is fontfile.tr which contains the features of each character of the training page. [lang].[fontname].exp[num].txt will also be written with a single newline and no text. ボックスfilenameはパスを含むtifファイル名と一致しなければならないことに注意してください。そうしないとTesseractはそれを見つけられません。このステップの出力は fontfile.trです。これはトレーニングページの各文字の機能を含みます。 [lang]。[fontname] .exp [num] .txtも1行の改行でテキストは表示されません。 Important Check for errors in the output from apply_box. If there are FATALITIES reported, then there is no point continuing with the training process until you fix the box file. The new box.train.stderr config file makes is easier to choose the location of the output. A FATALITY usually indicates that this step failed to find any training samples of one of the characters listed in your box file. Either the coordinates are wrong, or there is something wrong with the image of the character concerned. If there is no workable sample of a character, it can t be recognized, and the generated inttemp file won t match the unicharset file later and Tesseract will abort. 重要 apply \ _boxからの出力にエラーがないか確認してください。死亡が報告されている場合は、ボックスファイルを修正するまでトレーニングプロセスを続行しても意味がありません。新しいbox.train.stderr設定ファイルにより、出力の場所を選択しやすくなりました。 FATALITYは通常、このステップであなたのボックスファイルにリストされているキャラクターの1つのトレーニングサンプルを見つけることができなかったことを示します。座標が間違っているか、関係するキャラクターのイメージに問題があります。実行可能な文字のサンプルがない場合、それは認識されず、生成されたinttempファイルは後でunicharsetファイルと一致せず、Tesseractは中止されます。 Another error that can occur that is also fatal and needs attention is an error about "Box file format error on line n". If preceded by "Bad utf-8 char..." then the UTF-8 codes are incorrect and need to be fixed. The error "utf-8 string too long..." indicates that you have exceeded the 24 byte limit on a character description. If you need a description longer than 24 bytes, please file an issue. 発生する可能性があるもう1つのエラーこれも致命的で注意が必要ですは "行nのボックスファイル形式エラー"に関するエラーです。 "Bad utf-8 char ..."が前に付いている場合、UTF-8コードは正しくないため修正する必要があります。エラー "utf-8 string too long ..."は、文字の説明で24バイトの制限を超えたことを示します。 24バイトを超える説明が必要な場合は、問題を報告してください。 There is no need to edit the content of the [lang].[fontname].exp[num].tr file. The font name inside it need not be set. [lang]。[fontname] .exp [num] .trファイルの内容を編集する必要はありません。その中のフォント名を設定する必要はありません。 For the curious, here is some information on the format. Every character in the box file has a corresponding set of entries in the .tr file (in order) like this 興味がある人のために、ここでフォーマットに関するいくつかの情報があります。ボックスファイル内のすべての文字には、.trファイル内に次のように対応する一連のエントリがあります。 ` | ` UnknownFont UTF-8 code(s) 2 UnknownFont UTF-8コード 2 mf mf 機能数 x y length dir 0 0 x yの長さdir 0 0 ... (there are a set of these determined by ...( 機能数 によって決定されるこれらのセットがあります) above) 上記) cn 1 CN 1 ypos length x2ndmoment y2ndmoment yposの長さx 2ndmoment y 2ndmoment ` | ` The mf features are polygon segments of the outline normalized to the mfフィーチャーは、に正規化されたアウトラインのポリゴンセグメントです。 1st and 2nd moments. 第一と第二の瞬間。 x= x position [-0.5,0.5] x = x位置[-0.5、0.5] y = y position [-0.25,0.75] y = y位置[-0.25,0.75] length is the length of the polygon segment [0,1.0] lengthはポリゴンセグメントの長さです[0,1.0] dir is the direction of the segment [0,1.0] dirはセグメントの方向です[0,1.0] The cn feature is to correct for the moment normalization to cn機能は瞬間の正規化をに修正することです distinguish position and size (eg c vs C and , vs ) 位置とサイズを区別する(例 cとC、そしてvs ) ## Compute the Character Set ##文字セットを計算する Tesseract needs to know the set of possible characters it can output. To generate the unicharset data file, use the unicharset_extractor program on the box files generated above Tesseractは出力可能な文字のセットを知っている必要があります。 unicharsetデータファイルを生成するには、上で生成したボックスファイルに対してunicharset_extractorプログラムを使います。 ` | ` unicharset_extractor [lang].[fontname].exp[num].box lang.fontname.exp1.box ... unicharset_extractor [lang]。[フォント名] .exp [num] .box lang.fontname.exp1.box ... ` | ` Tesseract needs to have access to character properties isalpha, isdigit, isupper, islower, ispunctuation. This data must be encoded in the unicharset data file. Each line of this file corresponds to one character. The character in UTF-8 is followed by a hexadecimal number representing a binary mask that encodes the properties. Each bit corresponds to a property. If the bit is set to 1, it means that the property is true. The bit ordering is (from least significant bit to most significant bit) isalpha, islower, isupper, isdigit. Tesseractは、文字プロパティisalpha、isdigit、isupper、islower、ispunctuationにアクセスできる必要があります。このデータは unicharsetデータファイルにエンコードされなければなりません。このファイルの各行は1文字に対応しています。 UTF-8の文字の後には、プロパティーをエンコードする2進マスクを表す16進数が続きます。各ビットはプロパティに対応します。ビットが1に設定されている場合は、そのプロパティがtrueであることを意味します。ビット順序は、(最下位ビットから最上位ビットへ)isalpha、islower、isupper、isdigitです。 Example 例 * ; is an punctuation character. Its properties are thus represented by the binary number 10000 (10 in hexadecimal). * ; 句読文字です。したがって、その特性は2進数10000(16進数で10)で表されます。 * b is an alphabetic character and a lower case character. Its properties are thus represented by the binary number 00011 (3 in hexadecimal). * b は英字と小文字です。したがって、その特性は2進数00011(3は16進数)で表されます。 * W is an alphabetic character and an upper case character. Its properties are thus represented by the binary number 00101 (5 in hexadecimal). * W は英字と大文字です。したがって、その特性は2進数00101(16進数で5)で表されます。 * 7 is just a digit. Its properties are thus represented by the binary number 01000 (8 in hexadecimal). * 7 は単なる数字です。その特性は、2進数01000(16進数で8)で表されます。 * = does is not punctuation not digit or alphabetic character. Its properties are thus represented by the binary number 00000 (0 in hexadecimal). * = は、数字や英字ではなく句読点ではありません。そのプロパティは、2進数00000(16進数で0)で表されます。 ` | ` ; 10 Common 46 ; 10コモン46 b 3 Latin 59 b 3ラテン語59 W 5 Latin 40 西5ラテン40 7 8 Common 66 7 8共通66 = 0 Common 93 = 0一般93 ` | ` Japanese or Chinese alphabetic character properties are represented by the binary number 00001 (1 in hexadecimal). 日本語または中国語の英字プロパティーは、2進数00001(1は16進数)で表されます。 If your system supports the wctype functions, these values will be set automatically by unicharset_extractor and there is no need to edit the unicharset file. On some very old systems (eg Windows 95), the unicharset file must be edited by hand to add these property description codes. あなたのシステムがwctype関数をサポートしている場合、これらの値は unicharset_extractorによって自動的に設定されます。 unicharset ファイルを編集する必要はありません。非常に古いシステム(例えばWindows 95)では、 unicharsetファイルはこれらの特性記述コードを追加するために手で編集されなければなりません。 Last two columns represent type of script (Latin, Common, Greek, Cyrillic, Han, NULL) and id code of character given language. 最後の2つの列は、スクリプトのタイプ(ラテン語、共通文字、ギリシャ語、キリル文字、ハン語、NULL)、および指定された言語の文字のIDコードを表します。 NOTE The unicharset file must be regenerated whenever inttemp, normproto and pffmtable are generated (i.e. they must all be recreated when the box file is changed) as they have to be in sync. 注意 inttemp、normproto、 pffmtableが生成されたときはいつでもunicharsetファイルは再生成されなければなりません(つまり、ボックスファイルが変更されたときはすべて再作成されなければなりません)。同期する ## font_properties (new in 3.01) ## font \ _properties(3.01の新機能) A new requirement for training in 3.01 is a font_properties file. The purpose of this file is to provide font style information that will appear in the output when the font is recognized. The font_properties file is a text file specified by the -F filename option to mftraining. 3.01でトレーニングをするための新しい要件は font_propertiesファイルです。このファイルの目的は、フォントが認識されたときに出力に表示されるフォントスタイル情報を提供することです。 font_propertiesファイルはmftrainingの -F filenameオプションで指定されたテキストファイルです。 Each line of the font_properties file is formatted as follows font_propertiesファイルの各行は以下のようにフォーマットされています。 ` | ` フォント名 イタリック ボールド 固定 サービス フラクタ ` | ` where fontname is a string naming the font (no spaces allowed!), and italic , bold , fixed , serif and fraktur are all simple 0 or 1 flags indicating whether the font has the named property. ここで フォント名 はフォントの名前を表す文字列(スペースは使えません!)、そして italic 、 bold 、 fixed 、 serif および fraktur はフォントが名前付きプロパティを持っているかどうかを示すすべての単純な0または1のフラグ。 When running mftraining, each .tr filename must match an entry in the font_properties file, or mftraining will abort. At some point, possibly before the release of 3.01, this matching requirement is likely to shift to the font name in the .tr file itself. The name of the .tr file may be either fontname.tr or [lang].[fontname].exp[num].tr. mftrainingを実行するとき、それぞれの.trファイル名はfont_propertiesファイルの中のエントリーと一致しなければなりません、さもなければ mftrainingは中止するでしょう。おそらく3.01のリリース前のある時点で、この一致要件は.trファイル自体のフォント名にシフトする可能性があります。 .trファイルの名前は fontname.trか[lang]。[fontname] .exp [num] .trのいずれかです。 Example 例 font_properties file font_propertiesファイル ` | ` timesitalic 1 0 0 1 0 timesitalic 1 0 0 1 0 ` | ` ` | ` shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr ` | ` Note that in 3.03, there is a default font_properties file, that covers 3000 fonts (not necessarily accurately) located in this repo https //github.com/tesseract-ocr/langdata. Note 3.03には、このリポジトリにある3000フォント(必ずしも正確ではない)をカバーするデフォルトの font_propertiesファイルがあります [https //github.com/tesseract-ocr/langdata](https //raw.githubusercontent.com/tesseract-ocr/langdata/master/font_properties)。 ## Clustering ##クラスタリング When the character features of all the training pages have been extracted, we need to cluster them to create the prototypes. すべてのトレーニングページの特徴を抽出したら、それらをクラスタ化してプロトタイプを作成する必要があります。 The character shape features can be clustered using the shapeclustering, mftraining and cntraining programs 文字の形の特徴は shapeclustering、mftraining、 cntrainingプログラムを使ってクラスタ化することができます。 ### shapeclustering (new in 3.02) ### shapeclustering(3.02の新機能) shapeclustering should not be used except for the Indic languages. shapeclustering はインド系言語以外では使うべきではありません。 ` | ` shapeclustering -F font_properties -U unicharset [lang].[fontname].exp[num].tr lang.fontname.exp1.tr ... shapeclustering -F font_properties -U unicharset [lang]。[フォント名] .exp [num] .tr lang.fontname.exp1.tr ... ` | ` shapeclustering creates a master shape table by shape clustering and writes it to a file named shapetable. shapeclusteringはシェイプクラスタリングによってマスターシェイプテーブルを作成し、それをshapetableという名前のファイルに書き込みます。 ### mftraining ### mftraining ` | ` mftraining -F font_properties -U unicharset -O [lang].unicharset [lang].[fontname].exp[num].tr lang.fontname.exp1.tr ... mftraining -F font_properties -U unicharset -O [lang] .unicharset [lang]。[フォント名] .exp [num] .tr lang.fontname.exp1.tr ... ` | ` The -U file is the unicharset generated by unicharset_extractor above, and lang.unicharset is the output unicharset that will be given to combine_tessdata. -Uファイルは上記の unicharset_extractorによって生成されたユニキャストで、lang.unicharsetはcombine_tessdataに渡される出力ユニキャストです。 mftraining will output two other data files inttemp (the shape prototypes) and pffmtable (the number of expected features for each character). In versions 3.00/3.01, a third file called Microfeat is also written by this program, but it is not used. Later versions don t produce this file. mftrainingは他の2つのデータファイルを出力します inttemp(形状プロトタイプ)と pffmtable(各文字に期待される機能の数)。バージョン3.00 / 3.01では、 Microfeatと呼ばれる3番目のファイルもこのプログラムによって書かれていますが、使用されていません。最近のバージョンではこのファイルは生成されません。 NOTE mftraining will produce a shapetable file if you didn t run shapeclustering. You must include this shapetable in your traineddata file, whether or not shapeclustering was used. NOTE shapeclusteringを実行していなければ、mftrainingは shapetableファイルを作成します。 shapeclusteringが使われていようとなかろうと、あなたはトレーニングされたデータファイルにこのshapetableを含める必要があります。 ### cntraining ### cntraining ` | ` cntraining [lang].[fontname].exp[num].tr lang.fontname.exp1.tr ... cntraining [lang]。[fontname] .exp [num] .tr lang.fontname.exp1.tr ... ` | ` This will output the normproto data file (the character normalization sensitivity prototypes). これは normprotoデータファイル(文字正規化感度プロトタイプ)を出力します。 ## Dictionary Data (Optional) ##辞書データ(オプション) Tesseract uses up to 8 dictionary files for each language. These are all optional, and help Tesseract to decide the likelihood of different possible character combinations. Tesseractは各言語につき最大8つの辞書ファイルを使用します。これらはすべてオプションであり、Tesseractがさまざまな文字の組み合わせの可能性を判断するのに役立ちます。 Seven of the files are coded as a Directed Acyclic Word Graph (DAWG), and the other is a plain UTF-8 text file ファイルのうち7つは有向非循環ワードグラフ(DAWG)としてコード化されており、もう1つはプレーンなUTF-8テキストファイルです。 Name Type Description 名前 タイプ 説明 --------- --------- ---------------- --------- --------- ---------------- word-dawg dawg A dawg made from dictionary words from the language. 夜明け夜明けその言語からの辞書の単語から作られた夜明け。 freq-dawg dawg A dawg made from the most frequent words which would have gone into word-dawg. freq-dawg 夜明けword-dawgになっていたであろう最も頻繁な単語から作られた夜明け。 punc-dawg dawg A dawg made from punctuation patterns found around words. The "word" part is replaced by a single space. punc-dawg夜明け句読点パターンから作られた一言が言葉の周りに見つかった。 _ "word" _部分は単一のスペースに置き換えられます。 number-dawg dawg A dawg made from tokens which originally contained digits. Each digit is replaced by a space character. 夜明け夜明けもともと数字を含んでいたトークンから作られた夜明け。各桁はスペース文字に置き換えられます。 fixed-length-dawgs dawg Several dawgs of different fixed lengths —— useful for languages like Chinese. [Not used since version 3.03] 固定長dawgs 夜明け固定長の異なるいくつかのドッグ - 中国語などの言語に役立ちます。 [バージョン3.03から使用されていません] bigram-dawg dawg A dawg of word bigrams where the words are separated by a space and each digit is replaced by a ?. bigram-dawg 夜明け単語がスペースで区切られ、各数字が_?_で置き換えられている単語バイグラムの合成。 unambig-dawg dawg TODO Describe. unambig-dawg夜明けTODO 説明してください。 user-words text A list of extra words to add to the dictionary. Usually left empty to be added by users if they require it; see tesseract(1). ユーザーの言葉テキスト 辞書に追加する追加の単語のリスト。ユーザーが必要に応じて追加するために、通常は空のままにします。 tesseract(1)を参照してください。 To make the DAWG dictionary files, you first need a wordlist for your language. You may find an appropriate dictionary file to use as the basis for a wordlist from the spellcheckers (e. g. ispell, aspell or hunspell) - be careful about the license. The wordlist is formatted as a UTF-8 text file with one word per line. Split the wordlist into needed sets e.g. the frequent words, and the rest of the words, and then use wordlist2dawg to make the DAWG files DAWG辞書ファイルを作成するには、まずあなたの言語のワードリストが必要です。スペルチェッカからの単語リストの基礎として使用するのに適切な辞書ファイルを見つけることができます(例 ispell、[aspell] (http //aspell.net/)または[hunspell](http //hunspell.sourceforge.net/)) - ライセンスについて注意してください。ワードリストは、1行に1ワードのUTF-8テキストファイルとしてフォーマットされています。単語リストを必要なセット、例えば頻繁な単語と残りの単語に分割してから wordlist2dawgを使ってDAWGファイルを作成します。 ` | ` wordlist2dawg frequent_words_list [lang].freq-dawg [lang].unicharset wordlist2dawg frequent_words_list [lang] .freq-dawg [lang] .unicharset wordlist2dawg words_list [lang].word-dawg [lang].unicharset wordlist2dawg words_list [lang] .word-dawg [lang] .unicharset ` | ` For languages written from right to left (RTL), like Arabic and Hebrew, add -r 1 to the wordlist2dawg command. アラビア語やヘブライ語のように右から左(RTL)で書かれた言語の場合、 wordlist2dawgコマンドに-r 1を追加してください。 Other options can be found in wordlist2dawg Manual Page 他のオプションはwordlist2dawgマニュアルページにあります。 NOTE If a dictionary file is included in the combined traineddata, it must contain at least one entry. Dictionary files that would otherwise be empty are not required for the combine_tessdata step. 注 辞書ファイルが結合トレーニングデータに含まれている場合は、少なくとも1つのエントリが含まれていなければなりません。そうでなければ空になる辞書ファイルは combine_tessdataステップには必要ありません。 Words with unusual spellings should be added to the dictionary files. Unusual spellings can include mixtures of alphabetical characters with punctuation or numeric characters. (E.g. i18n, l10n, google.com, news.bbc.co.uk, io9.com, utf8, ucs2) 珍しい綴りの単語は辞書ファイルに追加されるべきです。異常なスペルには、英字と句読点または数字の混在が含まれる場合があります。 (例 国際化、国際化、国際化、google.com、news.bbc.co.uk、io9.com、utf8、ucs2) If you need example files for dictionary wordlists, uncombine (with combine_tessdata) existing language data file (e.g. eng.traineddata) and then extract wordlist with dawg2wordlist 辞書の単語リストのサンプルファイルが必要な場合は、既存の言語データファイル(combine \ _tessdataを使用)を結合解除します(例 eng.traineddata)その後、dawg2wordlistで単語リストを抽出します ## The last file (unicharambigs) ##最後のファイル(unicharambigs) The final data file that Tesseract uses is called unicharambigs. It describes possible ambiguities between characters or sets of characters, and is manually generated. To understand the file format, look at the following example Tesseractが使う最後のデータファイルは unicharambigsです。これは、文字間または文字セット間のあいまいさを表し、手動で生成されます。ファイル形式を理解するために、次の例を見てください。 ` | ` v1 v1 2 1 " 1 2 1 "1 1 m 2 r n 0 1 m 2 r n 0 3 i i i 1 m 0 3 i i i 1 m 0 ` | ` The first line is a version identifier. The remaining lines are tab separated fields, in the following format 1行目はバージョンIDです。残りの行はタブ区切りのフィールドで、次の形式です。 ` | ` 一致元の文字数 タブ 一致元の文字数 タブ 一致先の文字数 タブ 一致先の文字数 タブ タイプ区分 ` | ` Type indicator could have following values 次の値を示すタイプインジケータ[https //github.com/tesseract-ocr/tesseract/blob/master/ccutil/ambigs.h#L44]。 Value Type Description 値 タイプ 説明 ---------- --------- ---------------- ---------- --------- ---------------- 0 A non-mandatory substitution. This informs tesseract to consider the ambiguity as a hint to the segmentation search that it should continue working if replacement of source with target creates a dictionary word from a non-dictionary word. Dictionary words that can be turned to another dictionary word via the ambiguity will not be used to train the adaptive classifier. 0 必須ではない代用これは、 source を target に置き換えることで辞書以外の単語から辞書の単語が作成された場合でも、あいまいさが引き続き機能するというヒントとして、あいまいさを考慮することをテセクタに知らせます。あいまいさを介して別の辞書の単語に変えることができる辞書の単語は、適応分類器を訓練するためには使用されません。 1 A mandatory substitution. This informs tesseract to always replace the matched source with the target strings. 1 必須の代用品です。これは、一致した「ソース」を「ターゲット」の文字列に常に置き換えるようにテセラクトに通知します。 Example line Explanation 行の例 説明 ----------------- ---------------- ----------------- ---------------- 2 1 " 1 A double quote (") should be substituted whenever 2 consecutive single quotes ( ) are seen. 2 1 "1 二重引用符(")は、連続した二重引用符( )が2つ見られる場合は必ず**に置き換えてください。 1 m 2 r n 0 The characters rn may sometimes be recognized incorrectly as m . 1 m 2 r n 0 0文字 rn は m として誤って認識されることがあります。 3 i i i 1 m 0 The character m may sometimes be recognized incorrectly as the sequence iii . 3 i i i 1 m 0 0文字 m は、シーケンス iii として誤って認識されることがあります。 Each separate character must be included in the unicharset. That is, all of the characters used must be part of the language that is being trained. それぞれの別々の文字は、ユニキャストに含まれていなければなりません。つまり、使用されるすべての文字は、訓練されている言語の一部でなければなりません。 The rules are not bidirectional, so if you want rn to be considered when m is detected and vise versa you need a rule for each. 規則は双方向ではないので、「m」が検出されたときに「rn」が考慮されるようにしたい場合、またその逆の場合はそれぞれに規則が必要です。 Like most other files used in training, the unicharambigs file must be encoded as UTF-8, and must end with a newline character. 他のほとんどのトレーニング用ファイルと同様に、 unicharambigsファイルはUTF-8としてエンコードされ、改行文字で終わらなければなりません。 The unicharambigs format is also described in the unicharambigs(5) man page. unicharambigsフォーマットはunicharambigs(5)manページにも記述されています。 The unicharambigs file may also be non-existent. unicharambigsファイルも存在しないかもしれません。 # Putting it all together # すべてを一緒に入れて That is all there is to it! All you need to do now is collect together all the files (shapetable, normproto, inttemp, pffmtable) and rename them with a lang. prefix, where lang is the 3-letter code for your language taken from http //en.wikipedia.org/wiki/List_of_ISO_639-2_codes and then run combine_tessdata on them as follows それだけです。今する必要があるのは、すべてのファイル( shapetable、normproto、 inttemp、pffmtable)を集めて、それらを lang.接頭辞で名前を変更することです。langはあなたのための3文字のコードです。 http //en.wikipedia.org/wiki/List_of_ISO_639-2_codesから取得した言語を選択してから、次のようにそれらに combine_tessdataを実行します。 ` | ` combine_tessdata [lang]. combine_tessdata [lang]。 ` | ` NOTE Don t forget dot at the end! 注 最後にドットを忘れないでください! The resulting lang.traineddata goes in your tessdata directory. Tesseract can then recognize text in your language (in theory) with the following 結果のlang.traineddataはあなたのtessdataディレクトリに入ります。 Tesseractはそれからあなたの言語のテキストを(理論的に)次のように認識することができます ` | ` tesseract image.tif output -l [lang] tesseract image.tifの出力-l [lang] ` | ` (Actually, you can use any string you like for the language code, but if you want anybody else to be able to use it easily, ISO 639 is the way to go.) (実際には、言語コードに好きな文字列を使用できますが、他の人が簡単に使用できるようにしたい場合は、ISO 639が適しています。) More options of combine_tessdata can be found on its Manual Page or in comment of its source code. combine_tessdataのその他のオプションはマニュアルページまたは[ソースコード]のコメントにあります。 ](https //github.com/tesseract-ocr/tesseract/blob/master/training/combine_tessdata.cpp#L23)。 You can inspect some of the internals of traineddata files in 3rd party online Traineddata inspector. あなたはサードパーティのオンライン訓練データ検査官で訓練データファイルの内部のいくつかを調べることができます。