約 1,516,328 件
https://w.atwiki.jp/zjdkr5dw/pages/7.html
動画(youtube) @wikiのwikiモードでは #video(動画のURL) と入力することで、動画を貼り付けることが出来ます。 詳しくはこちらをご覧ください。 =>http //www1.atwiki.jp/guide/pages/801.html#id_30dcdc73 また動画のURLはYoutubeのURLをご利用ください。 =>http //www.youtube.com/ たとえば、#video(http //youtube.com/watch?v=kTV1CcS53JQ)と入力すると以下のように表示されます。
https://w.atwiki.jp/horserace/pages/4341.html
レッドサーパスをお気に入りに追加 レッドサーパスの情報をまとめています。リンク先には学生・未成年の方には不適切な表現内容が含まれる場合があります。またリンク先の内容を保証するものではありません。ご自身の責任でクリックしてください。 レッドサーパス <保存課> 使い方 サイト名 URL レッドサーパス <情報1課> #bf レッドサーパス <情報2課> #blogsearch2 レッドサーパス <情報3課> #technorati レッドサーパス <報道課> 【オクトーバーS】パンサラッサの大逃げがハマる(競馬のおはなし) - Yahoo!ニュース - Yahoo!ニュース 【新潟記念】伏兵マイネルファンロンが外ラチ沿いを突き抜ける(競馬のおはなし) - Yahoo!ニュース - Yahoo!ニュース 【新潟記念】戦い終えて - スポーツニッポン新聞社 【新潟記念】厩舎の話 - サンケイスポーツ 【新潟記念ハンデ確定】前走で重賞を勝ったザダル、トーセンスーリヤともに57.5kg(netkeiba.com) - Yahoo!ニュース - Yahoo!ニュース 【新潟記念】ザダル、トーセンスーリヤらが登録(netkeiba.com) - Yahoo!ニュース - Yahoo!ニュース 【福島記念】厩舎の話 - サンケイスポーツ 顕彰馬の全弟エブリワンブラックが変身へ/馬三郎のつぶやき - netkeiba.com レッドサーパス <成分解析課> レッドサーパスの56%は怨念で出来ています。レッドサーパスの38%は大阪のおいしい水で出来ています。レッドサーパスの3%はかわいさで出来ています。レッドサーパスの2%は信念で出来ています。レッドサーパスの1%はマイナスイオンで出来ています。 ページ先頭へ
https://w.atwiki.jp/corpus-ling/pages/17.html
はじめに 書き言葉青空文庫 新潮文庫の100冊 日英新聞記事対応付けデータ 日英対訳文対応付けデータ 京都テキストコーパス(Version 4.0) 新聞記事データベース 国会会議録検索システム 判例検索システム 現代日本語書き言葉均衡コーパス(2011.8公開予定) 形態素解析済みコーパスの公開 話し言葉日本語話し言葉コーパス BTSによる多言語話し言葉コーパス 女性のことば・職場編 男性のことば・職場編 戦時中の話しことば 日本語会話データベース ウェブデータSketch Engine Wikipediaのコーパス化 Webから自動構築した大規模格フレーム 言語習得日本語学習会話データ KYコーパス(第二言語としての日本語学習者の話し言葉) 日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB) CHILDES(The Child Language Exchange System) 辞書・シソーラス日本語WordNet 動詞項構造シソーラス 日本語動詞の結合価 分類語彙表 日本語語彙大系 IPAL辞書 (動詞,形容詞,名詞) EDR電子化辞書 はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容 ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。 入手方法1 「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2 『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章 夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索 日本語用例・コロケーション抽出システム『茶漉』による検索システム 大阪大学田野村先生が作成した青空文庫のKWIC 文字列単位の検索とExcelへの出力ができます。 『「青空文庫」変換スクリプトパッケージ』 青空文庫の文書から『ひまわり』検索用データ(XML 形式のコーパスファイル)を作成するためのツールです。『インターネット図書館 青空文庫』を資料として利用しています。変換対象となったのは,2560作品です。詳細はこちらをご覧ください 新潮文庫の100冊 内容 新潮文庫で絶版となった、入手不可能な珠玉の100作品を収録しています。テキストコーパスとして利用するには、テキスト化ツールを使ってテキストとして加工する必要があります。詳細はこちら。続編に『CD-ROM版 新潮文庫 明治の文豪』、『CD-ROM版 新潮文庫 大正の文豪』などがあります。 入手方法 ウェブから購入するには。 日英新聞記事対応付けデータ 内容 読売新聞と The Daily Yomiuri から自動作成された日英対応付けコーパスです。 入手方法 ダウンロードなどこちらから 関連文章 Masao Utiyama and Hitoshi Isahara. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, pp. 72-79.]] 日英対訳文対応付けデータ 内容 Project Gutenberg や青空文庫やプロジェクト杉田玄白などの作品について日本語文と英語文との対訳文対応を付けています。 入手方法 ダウンロードなど 京都テキストコーパス(Version 4.0) 内容 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパス 入手方法 ウェブよりダウンロード。詳細はこちら コメント ここに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。 新聞記事データベース 内容 毎日、朝日、読売新聞記事のデータ版 入手方法 利用許諾契約を結ぶことで、研究目的での利用ができます。ただし、非常に高額なので、個人での使用には向かないかもしれません。詳細はこちらから 国会会議録検索システム 内容 戦後の帝国議会や国会議事録を検索することができます。 利用方法 ウェブから検索できます。詳細はこちらへ 判例検索システム 内容 裁判所の判例情報を検索するシステムです。コーパスとしての利用可能性についてはやや疑問がありますが、テキストデータの検索が可能です。 利用方法 ウェブから検索できます。詳細はこちらへ 現代日本語書き言葉均衡コーパス(2011.8公開予定) 内容 大規模な現代日本語書き言葉コーパス構築のためのプロジェクト コメント テスト版が公開されています。ここから 入手方法 http //www.tokuteicorpus.jp/ モニター公開 「現代日本語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開しています。詳細はこちらから 形態素解析済みコーパスの公開 内容 ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。利用者の皆様は、本コーパスをダウンロードし、『ひまわり』をパソコンにインストールすれば、単語単位での例文検索、基本形での例文検索、品詞による検索結果の絞り込み、といった作業を簡単に行うことができます。 入手方法 http //nlp.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html 話し言葉 日本語話し言葉コーパス 内容 国立国語研究所・情報通信研究機構・東京工業大学が共同開発した話し言葉データベース 入手方法 『日本語話し言葉コーパス』公開のご案内 関連サイト 菊池英明先生(早稲田大学)による「CSJの利用ガイド」で分かりやすい解説をしています。こちらから BTSによる多言語話し言葉コーパス 内容 日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話の文字化資料(CD-ROM)。 入手方法 利用申込書による申請 関連文章 宇佐美まゆみ(2003)、『多文化共生社会における異文化コミュニケーション教育のための基礎的研究』(科学研究費補助金基盤研究(C) 2:研究代表者 宇佐美まゆみ)研究成果報告書、4-21. 女性のことば・職場編 内容 1993年9月~11月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の女性。19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にフロッピィディスク付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。 入手方法:書籍として購入(\3,675)。アマゾンで購入したい場合は、こちらをクリック 男性のことば・職場編 内容 1999年10月~2000年12月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の男性で、各世代5名で異なる職種・職場からなる19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にCD-ROM付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。 入手方法:書籍として購入(\2,940)。アマゾンで購入したい場合は、こちらをクリック 戦時中の話しことば 戦時中の1936年から戦後の1955年の間に、日本放送協会からラジオで放送された78冊のラジオ台本を文字化し、Unicodeテキストファイル(タブ区切り)としたもの。 入手方法 書籍として購入(\3,990)。テキストデータCD-ROMが付いてくる。アマゾンで購入したい場合は、こちらをクリック 日本語会話データベース 内容 日本語母国語話者(以下NS)と非母国語話者(以下NNS)の発話パターンの比較分析と日本語教育向けの基礎資料となる言語データベース 入手方法 ウェブからダウンロード。詳細はこちら ウェブデータ Sketch Engine 内容 ウェブ上でコーパス検索ができるデータとツールが実装されています。BNCコーパスをはじめ,日本語,ロシア語,スペイン語,フランス語,中国語など,様々な言語のデータを利用することができ,体系化された情報と直観的なインタフェイスで非常に使いやすいデータベースになっています。日本語の元データはウェブで,約4憶語規模のコーパスです。 コメント 利用はフリーではありませんが,30日間のトライアルアカウントをもらうことができます。正式な利用のためには1年間で約1万円の利用料がかかります。 入手方法 ウェブからアクセス。こちらから入ってください 関連論文 The Sketch Engine (published Proc EURALEX 2004, Lorient, France) Wikipediaのコーパス化 内容 長谷部陽一郎さん(同志社大学)による試み。ウィキペディアをダウンロード後、テキストに変換し、日本語コーパスとして利用するというもの。 コメント 利用方法の詳細を記した論文があります。非常に面白い試みだと思います。コーパス化に必要な一連の自作ツール(フリー)も同時に公開しています。 入手方法 1) Wikipedia データベースダウンロードから記事をダウンロードする。2)http //www.yohasebe.com/にアクセス後、ツールをダウンロード。利用法の詳細はこちらの論文をご覧ください Webから自動構築した大規模格フレーム 内容 Webテキストから自動構築した大規模格フレームです。動詞と共起する格助詞と名詞を検索することができます。 規模 約5億文をの日本語テキストから自動構築し、約5万用言から構成されています。 入手方法 基本的にはウェブ上での使用のみです。詳細はこちらから 関連文章 河原大輔, 黒橋禎夫.「高性能計算環境を用いたWebからの大規模格フレーム構築」『情報処理学会 自然言語処理研究会』171-12, pp.67-73, 2006. 河原大輔, 黒橋禎夫.「格フレーム辞書の漸次的自動構築」『自然言語処理』Vol.12, No.2, pp.109-131, 2005. 黒橋禎夫, 河原大輔.「格フレームを用いた自然言語処理――基本語彙の整理と格フレームの自動獲得〈上〉」『月刊言語2007年11月号』 「Webから自動構築した大規模格フレーム」の使用レポート 言語習得 日本語学習会話データ 内容 9日本語学習者とテスターの会話データ390件。学習者の属性情報とレベル判定付 入手方法 ウェブ上で利用。要認証http //dbms.kokken.go.jp/nknet/ndata/opi/ KYコーパス(第二言語としての日本語学習者の話し言葉) 内容 90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつある。 入手方法 利用申請書を郵送する。詳細はこちら 日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB) 日本語学習者による日本語作文と作文執筆者本人による母語訳のデータベース。作文データの総数は1,565件。 入手方法 ウェブ上で利用者登録をし、IDとパスワードを発行してもらってからデータベースにアクセス。詳細は!こちらから! CHILDES(The Child Language Exchange System) 内容 国際的な言語獲得研究のためのデータベースプロジェクトです。日本語幼児のデータもあります。解析用のツールも公開されています。 入手方法 ウェブページからダウンロード。詳細はこちらから 関連文章 宮田Susanne 編 Brian MacWhinney 監修(2004)『今日から使える発話データベースCHILDES入門』ひつじ書房 CHILDESの各種案内 橋本智也さん(大阪府立大学)のページに有益な情報が載っています。こちらから 辞書・シソーラス 日本語WordNet 内容 Princeton WordNet の日本語版で、日本語の意味辞書。様々な検索用のモジュールがある。 入手方法:ウェブからアクセス。http //nlpwww.nict.go.jp/wn-ja/ 動詞項構造シソーラス 内容:人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の辞書を構築してfreeで配布しています(現在4425語(7473語義)) 入手方法:ウェブからダウンロード。詳細はこちらから 研究:竹内孔一, 乾健太郎, 竹内奈央, 藤田篤,意味の包含関係に基づく動詞項構造の細分類発表番号 B5-2, 言語処理学会年次大会,2008年3月,東京大学 日本語動詞の結合価 内容 荻野孝野・小林正博・井佐原均(編著)によるもの。15万文規模の日本語文集合をもとに、「動詞がとりうる格と、その格を担う体言」について整備した、大規模な言語データ集。 入手方法 書籍を購入(50,400円)すれば,CD-ROMが付属されており,検索用ツールなども公開されている.詳細は三省堂参照 分類語彙表 内容 国立国語研究所により作成されたもので、延べ約9万6千語の日本語の単語を意味的に分類したものです。 入手方法 大日本図書より販売されています(\4,700)。書籍内には、PDFファイルのCD-ROMも入っています。詳細は国立国語研究所のページ参照 日本語語彙大系 内容 30万語の収録語は3000種の意味分類を用いて定義されている、大規模の日本語シソーラスです。3000種の意味分類を用いて日本語の文型を定義しています。 入手方法 ウェブより購入可(ISBN 4001301016; 60,000円) 関連文章 詳細はこちら 書籍についての詳細はこちらを 「日本語語彙大系」の使用レポート IPAL辞書 (動詞,形容詞,名詞) 内容 日本語の基本語(動詞861語,形容詞136語,名詞1081語) の詳細な文法情報を掲載した電子化辞書です。動詞辞書の場合、動詞の意味グループ別に分かれていて、見出し語の動詞と共起する格助詞、そして名詞の意味特徴が指定されています。 入手方法 GSKより配布中。詳細はこちらを EDR電子化辞書 内容 計算機による言語処理のために開発された辞書です。単語辞書などのいくつかの大規模な個別辞書から構成されています。 入手方法 詳細はこちらから コメント 非常に高価な辞書ですので、個人での購入には不向きですが、非常巨大で優れた電子辞書です。
https://w.atwiki.jp/corpus-ling/pages/18.html
サイト移転しました。 http //jhlee.sakura.ne.jp/ から御覧ください。 はじめに データ抽出系KWIC Finder KH Coder ひまわり 茶器 茶漉 SearchXML データ解析系UniDic/茶まめ 近代文語UniDic 茶筌 Juman KNP MeCab (和布蕪) Cabocha 掲示板 はじめに コーパスデータを分析するためのツールを紹介します。 人文系にとっても比較的低コストで使えそうなコーパスツールをまとめておきます。主にWindows版です。 PCスキルは、設定および操作に要するPCの基礎知識を意味します。星の数が少ないほど設定が簡単という意味です。 データ抽出系 いわゆるコンコーダンスソフトです。比較的設定が簡単なものの順に挙げておきます。 KWIC Finder 内容 PDF/WORD/EXCEL等のファイル形式に対応したGREP検索・テキストビューア。 PCスキル ★ 入手方法 ウェブページよりダウンロード。シェアウェア(1000円)ですが、機能限定のフリーバージョンもあります。詳細はこちらから コメント 語句を単純に検索する程度なら一番簡単に使えるツールかもしれません。形態素解析を前提にしない分、あと処理に手間と時間はかかりますが、設定や操作は非常に楽です。とりあえず単語の使い方を確認する程度なら、良いと思います。 KWIC Finder使用レポート KH Coder 内容 、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです。新聞記事、質問紙調査における自由回答項目、インタビュー記録など、社会調査によって得られる様々な日本語テキスト型データを計量的に分析するために製作されました。 PCスキル ★ 入手方法 ウェブページよりダウンロード。詳細はこちらから コメント 茶筌の形態素解析情報を元に、様々なデータ抽出機能が用意されています。SQLというデータベースソフトを使ってはいますが、インストールは非常に楽です。操作も、簡単なマウス操作で、すべての作業ができるので、比較的簡単と言えます。 関連文章 佐野香織・李在鎬「KH Coderで何ができるか~日本語習得・日本語教育研究 利用への示唆~」、『言語文化と日本語教育』(No.33),pp.94-95.⇒PDFで見る KH Coder関連文献 KH Coder使用レポート ひまわり 内容 国立国語研究所で開発し、言語研究用に設計された全文検索システム。『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができる。 PCスキル ★ 入手方法 ウェブページからダウンロード。詳細はこちらから 茶器 内容 奈良先端大学院大学で開発したタグ付きコーパスを管理・検索するためのツール PCスキル ★★★ 入手方法 ウェブページからダウンロード。詳細はこちらから コメント インストールに関する詳細な情報は上記のリンク先から入手可能です。英語の分析にも使えるようです。 関連文章 2006年度自然言語処理技術講習会資料(2006.9.4-6) 茶漉 茶筌をベースに設計された,用例およびコロケーション情報を抽出するシステムです.ウェブ上での使用のみで,青空文庫と名大会話コーパスからデータを取り出すことができます. PCスキル ★ 入手方法 ウェブでの閲覧のみ。詳細はこちらから SearchXML 内容 XML文章内を検索するためのツール。利用マニュアルは作成中とのことです。 PCスキル ★ 入手方法 ウェブ上でダウンロード。ダウンロードはこちらから データ解析系 主に自然言語処理のために開発されたもの。設定や操作にはそれなりのスキルを要します。Windowsでの使用を前提にしていない場合が多いです。 UniDic/茶まめ 内容 日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。形態素解析には『茶筌』を使用しています。 PCスキル ★ 入手方法 ウェブページからダウンロード。簡単なユーザー登録後に、すぐに使えます。インストールも非常に楽です。詳細はこちらから コメント 本体のほかに、茶筌をインストールしなければなりません。インストールに関する詳細は、上記リンクより閲覧できます。直感的で分かりやすいツールだと思います。ファイルの出力オプションも色々用意されていて、使い勝手はかなり良いと思います。 関連文章 伝 康晴(他)(2006)「多様な目的に適した形態素解析システム用電子化辞書の開発」(「日本語コーパス」全体会議電子化辞書班報告) 茶まめ使用レポート 近代文語UniDic 内容 UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です。 PCスキル ★ 入手方法 ウェブページから評価版をダウンロード。詳細はこちらから 関連文章 小木曽智信・小椋秀樹・近藤明日子(2008)「近代文語文を対象とした形態素解析辞書の開発」言語処理学会第14回年次大会発表論文集 pp.225-228 茶筌 内容 自然言語処理研究の分野で形態素解析のためにもっとも広く使われているフリーソフトウェアです。Win版もあります。KH Coderは茶筌を組み込んでいるので、茶筌を使いたいのであれば、KH Coderを利用することをお薦めします。 PCスキル ★★ 入手方法 Chasen's Wikiよりダウンロード 関連文章 文系向け茶筌のインストール方法です。麗澤大学言語研究センター作成 Juman 内容 形態素解析ソフトウェア 入手方法 ウェブページからダウンロード。詳細はこちらから PCスキル ★★★★ 関連文章 JUMAN/KNPのチュートリアルのスライド KNP 内容 係り受け解析ソフトウェア 入手方法 ウェブページからダウンロード。詳細はこちらから PCスキル ★★★★ 関連文章 JUMAN/KNPのチュートリアルのスライド MeCab (和布蕪) 内容 形態素解析ソフトウェア 入手方法 ウェブページからダウンロード。詳細はこちらから PCスキル ★★★★ Cabocha 内容 Support Vector Machines に基づく日本語係り受け解析器 入手方法 ウェブページからダウンロード。詳細はこちらから PCスキル ★★★★ コメント 楽しいデモがあります。 掲示板 名前: タイトル: 本文:
https://w.atwiki.jp/corpus-ling/pages/12.html
使える言語資源を紹介します。 コーパスの入手法なども紹介
https://w.atwiki.jp/corpus-ling/pages/73.html
サイト移転しました。 http //jhlee.sakura.ne.jp/ から御覧ください。 はじめに 話し言葉を収録した学習者コーパス日本語学習者会話データベース KYコーパス(第二言語としての日本語学習者の話し言葉) CHILDES(The Child Language Exchange System) 書き言葉を収録した学習者コーパス日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB) 日本・韓国・台湾の大学生による日本語意見文データベース はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 話し言葉を収録した学習者コーパス 日本語学習者会話データベース 内容 9日本語学習者とテスターの会話データ390件。学習者の属性情報とレベル判定付 入手方法 ウェブ上で利用。要認証https //dbms.ninjal.ac.jp/nknet/ndata/ KYコーパス(第二言語としての日本語学習者の話し言葉) 内容 90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつある。 入手方法 利用申請書を郵送する。詳細はこちら CHILDES(The Child Language Exchange System) 内容 国際的な言語獲得研究のためのデータベースプロジェクトです。日本語幼児のデータもあります。解析用のツールも公開されています。 入手方法 ウェブページからダウンロード。詳細はこちらから 関連文章 宮田Susanne 編 Brian MacWhinney 監修(2004)『今日から使える発話データベースCHILDES入門』ひつじ書房 CHILDESの各種案内 橋本智也さん(大阪府立大学)のページに有益な情報が載っています。こちらから 書き言葉を収録した学習者コーパス 日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB) 日本語学習者による日本語作文と作文執筆者本人による母語訳のデータベース。作文データの総数は1,565件。 入手方法 ウェブ上で利用者登録をし、IDとパスワードを発行してもらってからデータベースにアクセス。詳細は!こちらから! 日本・韓国・台湾の大学生による日本語意見文データベース 東京外国語大学伊集院郁子先生が構築したもの。日本語を母語とする大学生(134 名)と日本語を学ぶ大学生(台湾57 名、韓国 55 名)が日本語で執筆した意見文を収録したデータベース。 入手方法 ウェブ上でテキストファイルおよびPDFファイルとして閲覧。ダウンロードも可能。利用者登録不要。詳細は!こちらから!
https://w.atwiki.jp/corpus-ling/pages/72.html
サイト移転しました。 http //jhlee.sakura.ne.jp/ から御覧ください。 はじめに 書き言葉現代日本語書き言葉均衡コーパス 青空文庫 新潮文庫の100冊 日英新聞記事対応付けデータ 日英対訳文対応付けデータ 京都テキストコーパス(Version 4.0) 新聞記事データベース 国会会議録検索システム 判例検索システム 形態素解析済みコーパスの公開 話し言葉日本語話し言葉コーパス BTSによる多言語話し言葉コーパス 女性のことば・職場編 男性のことば・職場編 戦時中の話しことば 日本語会話データベース ウェブデータSketch Engine Wikipediaのコーパス化 Webから自動構築した大規模格フレーム 辞書・シソーラス日本語WordNet 動詞項構造シソーラス 日本語動詞の結合価 分類語彙表 日本語語彙大系 IPAL辞書 (動詞,形容詞,名詞) EDR電子化辞書 はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 現代日本語書き言葉均衡コーパス 内容 1億語規模の現代日本語の書き言葉コーパス。利用方法は3つ 利用方法1(オンラインコーパスツールで利用)少納言:文字列検索のみ対応,データのダウンロード不可 中納言:文字列検索,品詞による検索,長単位検索,データのダウンロード可 NINJAL-LWP for BCCWJ:辞書引き的に使えるオンラインコーパスツール,データのダウンロード不可 利用方法2(DVDで利用):コーパス開発せんたーBCCWJ 青空文庫 内容 ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。 入手方法1 「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2 『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連論文 夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索 日本語用例・コロケーション抽出システム『茶漉』による検索システム 大阪大学田野村先生が作成した青空文庫のKWIC 文字列単位の検索とExcelへの出力ができます。 『「青空文庫」変換スクリプトパッケージ』 青空文庫の文書から『ひまわり』検索用データ(XML 形式のコーパスファイル)を作成するためのツールです。『インターネット図書館 青空文庫』を資料として利用しています。変換対象となったのは,2560作品です。詳細はこちらをご覧ください 新潮文庫の100冊 内容 新潮文庫で絶版となった、入手不可能な珠玉の100作品を収録しています。テキストコーパスとして利用するには、テキスト化ツールを使ってテキストとして加工する必要があります。詳細はこちら。続編に『CD-ROM版 新潮文庫 明治の文豪』、『CD-ROM版 新潮文庫 大正の文豪』などがあります。 入手方法 ウェブから購入するには。 日英新聞記事対応付けデータ 内容 読売新聞と The Daily Yomiuri から自動作成された日英対応付けコーパスです。 入手方法 ダウンロードなどこちらから 関連論文 Masao Utiyama and Hitoshi Isahara. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, pp. 72-79.]] 日英対訳文対応付けデータ 内容 Project Gutenberg や青空文庫やプロジェクト杉田玄白などの作品について日本語文と英語文との対訳文対応を付けています。 入手方法 ダウンロードなど 京都テキストコーパス(Version 4.0) 内容 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパス 入手方法 ウェブよりダウンロード。詳細はこちら コメント ここに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。 新聞記事データベース 内容 毎日、朝日、読売新聞記事のデータ版 入手方法 利用許諾契約を結ぶことで、研究目的での利用ができます。ただし、非常に高額なので、個人での使用には向かないかもしれません。詳細はこちらから 国会会議録検索システム 内容 戦後の帝国議会や国会議事録を検索することができます。 利用方法 ウェブから検索できます。詳細はこちらへ 判例検索システム 内容 裁判所の判例情報を検索するシステムです。コーパスとしての利用可能性についてはやや疑問がありますが、テキストデータの検索が可能です。 利用方法 ウェブから検索できます。詳細はこちらへ 形態素解析済みコーパスの公開 内容 ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。利用者の皆様は、本コーパスをダウンロードし、『ひまわり』をパソコンにインストールすれば、単語単位での例文検索、基本形での例文検索、品詞による検索結果の絞り込み、といった作業を簡単に行うことができます。 入手方法 http //nlp.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html 話し言葉 日本語話し言葉コーパス 内容 国立国語研究所・情報通信研究機構・東京工業大学が共同開発した話し言葉データベース 入手方法 『日本語話し言葉コーパス』公開のご案内 関連サイト 菊池英明先生(早稲田大学)による「CSJの利用ガイド」で分かりやすい解説をしています。こちらから BTSによる多言語話し言葉コーパス 内容 日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話の文字化資料(CD-ROM)。 入手方法 利用申込書による申請 関連論文 宇佐美まゆみ(2003)、『多文化共生社会における異文化コミュニケーション教育のための基礎的研究』(科学研究費補助金基盤研究(C) 2:研究代表者 宇佐美まゆみ)研究成果報告書、4-21. 女性のことば・職場編 内容 1993年9月~11月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の女性。19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にフロッピィディスク付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。 入手方法:書籍として購入(\3,675)。アマゾンで購入したい場合は、こちらをクリック 男性のことば・職場編 内容 1999年10月~2000年12月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の男性で、各世代5名で異なる職種・職場からなる19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にCD-ROM付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。 入手方法:書籍として購入(\2,940)。アマゾンで購入したい場合は、こちらをクリック 戦時中の話しことば 戦時中の1936年から戦後の1955年の間に、日本放送協会からラジオで放送された78冊のラジオ台本を文字化し、Unicodeテキストファイル(タブ区切り)としたもの。 入手方法 書籍として購入(\3,990)。テキストデータCD-ROMが付いてくる。アマゾンで購入したい場合は、こちらをクリック 日本語会話データベース 内容 日本語母国語話者(以下NS)と非母国語話者(以下NNS)の発話パターンの比較分析と日本語教育向けの基礎資料となる言語データベース 入手方法 ウェブからダウンロード。詳細はこちら ウェブデータ Sketch Engine 内容 ウェブ上でコーパス検索ができるデータとツールが実装されています。BNCコーパスをはじめ,日本語,ロシア語,スペイン語,フランス語,中国語など,様々な言語のデータを利用することができ,体系化された情報と直観的なインタフェイスで非常に使いやすいデータベースになっています。日本語の元データはウェブで,約4憶語規模のコーパスです。 コメント 利用はフリーではありませんが,30日間のトライアルアカウントをもらうことができます。正式な利用のためには1年間で約1万円の利用料がかかります。 入手方法 ウェブからアクセス。こちらから入ってください 関連論文 The Sketch Engine (published Proc EURALEX 2004, Lorient, France), Srdanović, E. I., Erjavec T. Kilgarriff, A. (2008). A web corpus and word-sketches for Japanese. Sizen gengo syori (Journal of Natural Language Processing) 15/2. 137-159.・・・>PDFファイル スルダノヴィッチ・エリャヴェツ・イレーナ,仁科喜久子(2008)「コーパス検索ツールSketch Engineの日本語版とその利用方法」『日本語科学』第23号, 国書刊行会,59-79.・・・>PDFファイル(著者より提供) Wikipediaのコーパス化 内容 長谷部陽一郎さん(同志社大学)による試み。ウィキペディアをダウンロード後、テキストに変換し、日本語コーパスとして利用するというもの。 コメント 利用方法の詳細を記した論文があります。非常に面白い試みだと思います。コーパス化に必要な一連の自作ツール(フリー)も同時に公開しています。 入手方法 1) Wikipedia データベースダウンロードから記事をダウンロードする。2)http //www.yohasebe.com/にアクセス後、ツールをダウンロード。利用法の詳細はこちらの論文をご覧ください Webから自動構築した大規模格フレーム 内容 Webテキストから自動構築した大規模格フレームです。動詞と共起する格助詞と名詞を検索することができます。 規模 約5億文をの日本語テキストから自動構築し、約5万用言から構成されています。 入手方法 基本的にはウェブ上での使用のみです。詳細はこちらから 関連論文 河原大輔, 黒橋禎夫.「高性能計算環境を用いたWebからの大規模格フレーム構築」『情報処理学会 自然言語処理研究会』171-12, pp.67-73, 2006. 河原大輔, 黒橋禎夫.「格フレーム辞書の漸次的自動構築」『自然言語処理』Vol.12, No.2, pp.109-131, 2005. 黒橋禎夫, 河原大輔.「格フレームを用いた自然言語処理――基本語彙の整理と格フレームの自動獲得〈上〉」『月刊言語2007年11月号』 「Webから自動構築した大規模格フレーム」の使用レポート 辞書・シソーラス 日本語WordNet 内容 Princeton WordNet の日本語版で、日本語の意味辞書。様々な検索用のモジュールがある。 入手方法:ウェブからアクセス。http //nlpwww.nict.go.jp/wn-ja/ 動詞項構造シソーラス 内容:人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の辞書を構築してfreeで配布しています(現在4425語(7473語義)) 入手方法:ウェブからダウンロード。詳細はこちらから 研究:竹内孔一, 乾健太郎, 竹内奈央, 藤田篤,意味の包含関係に基づく動詞項構造の細分類発表番号 B5-2, 言語処理学会年次大会,2008年3月,東京大学 日本語動詞の結合価 内容 荻野孝野・小林正博・井佐原均(編著)によるもの。15万文規模の日本語文集合をもとに、「動詞がとりうる格と、その格を担う体言」について整備した、大規模な言語データ集。 入手方法 書籍を購入(50,400円)すれば,CD-ROMが付属されており,検索用ツールなども公開されている.詳細は三省堂参照 分類語彙表 内容 国立国語研究所により作成されたもので、延べ約9万6千語の日本語の単語を意味的に分類したものです。 入手方法 大日本図書より販売されています(\4,700)。書籍内には、PDFファイルのCD-ROMも入っています。詳細は国立国語研究所のページ参照 日本語語彙大系 内容 30万語の収録語は3000種の意味分類を用いて定義されている、大規模の日本語シソーラスです。3000種の意味分類を用いて日本語の文型を定義しています。 入手方法 ウェブより購入可(ISBN 4001301016; 60,000円) 関連論文 詳細はこちら 書籍についての詳細はこちらを 「日本語語彙大系」の使用レポート IPAL辞書 (動詞,形容詞,名詞) 内容 日本語の基本語(動詞861語,形容詞136語,名詞1081語) の詳細な文法情報を掲載した電子化辞書です。動詞辞書の場合、動詞の意味グループ別に分かれていて、見出し語の動詞と共起する格助詞、そして名詞の意味特徴が指定されています。 入手方法 GSKより配布中。詳細はこちらを EDR電子化辞書 内容 計算機による言語処理のために開発された辞書です。単語辞書などのいくつかの大規模な個別辞書から構成されています。 入手方法 詳細はこちらから コメント 非常に高価な辞書ですので、個人での購入には不向きですが、非常巨大で優れた電子辞書です。
https://w.atwiki.jp/corpus-ling/pages/13.html
コーパス分析用の解析ツールや、 分析手法の典型的なものを紹介します。
https://w.atwiki.jp/sponsoracjapan/pages/5988.html
スポンサー企業 パーパス 提供番組(ネットセールス) 2022年8月現在 サンデーLIVE!! 提供番組(ローカルセールス) 関東 2022年8月現在(NTV、EX、TBS、TX、CX) グッド!モーニング(金曜7時台) THE TIME,(水曜7時台後半・2021年10月~) 関東 過去 ZIP!(火曜7時台後半・~2021年9月) 提供クレジット TBS送出 2021年4月~ カラー表記化に非対応 テレ朝送出 2022年4月~ カラー表記化に対応
https://w.atwiki.jp/gamemusicbest100/pages/9918.html
OPUS / Opus ガブリンサウンドの代表を務めていた鈴木隆志氏が1990年3月に設立した株式会社。 (ちなみに会社設立以前に発売された『モトローダーII』、『エキゾースト・ヒート』でも既にOPUS名義、OPUS CORP名義が使用されている) 現在はゲーム・ソフトウェアの企画開発やAI機械学習開発を行っており、近年はサウンドを手掛けていない開発作品も存在する。 この項ではオーパス(スタッフ所属表記含む)がサウンド関係としてクレジットされていることが確認できる作品について記載する。 主な所属サウンドスタッフ 鈴木隆志オーパスの現代表取締役 中山裕基のちにアマチュアバンドLaboratory、MAGAMOSにキーボードで参加したほか、「あざらし」としてWinGrooveなどのWindows用サウンドアプリを制作 赤堀正直 榎木淳オーパスの現社員 太田敏のちにゲームフリークにて多くのポケモンシリーズ作品でモンスターデザインを担当 (*1) やまぐちともお 参加作品 モトローダーII (担当者不明) エキゾースト・ヒート (サウンドプロデュース / 作曲) らんま1/2 町内激闘篇 (サウンドプロデュース / 作曲) ヴィクセン357 (担当者不明) 重装機兵ヴァルケン (音楽・効果音) エキゾースト・ヒート F1ドライバーへの軌跡 (サウンドディレクション / 作曲 / 効果音) シルヴァ・サーガ2 (いしだかつひさと共作) ファイナル・ストレッチ (サウンド) 決戦!ドカポン王国(ランド)IV ~伝説の勇者たち~ (サウンド) (*2) ブレインロード (*3) (サウンドディレクション / 作曲 / サウンド) ソード・マニアック (効果音 / サウンドプログラム) X-KALIBER 2097 (効果音 / サウンドプログラム) デザートファイター 砂の嵐作戦 (*2) コットン100% (効果音) ツインイーグルII (サウンドトラック)(担当者不明) ドリフトキング 首都高バトル 94 土屋圭市 坂東正明 (サウンド)(担当者不明) キーパー (効果音 / サウンドプログラム) へべれけのおいしいパズルはいりませんか (塚本浩と共作) ノスフェラトゥ (音楽 / 効果音) ドリフトアウト 94 (サウンド 音楽) スーパーリアル麻雀 ~P.V~ (音楽ディレクション / 音楽 / 効果) ウルトラ警備隊 空想特撮ゲーム (サウンド) 負けるな!魔剣道2 決めろ!妖怪総理大臣 (サウンドデザイナー)(担当者不明) 熱血大陸バーニングヒーローズ (音楽) マージャンソード プリンセスクエスト外伝 (サウンド) モータートゥーン・グランプリ2 (サウンドFXプログラミング / 効果音) DEPTH (サウンドプログラム含む開発 / 音楽プロデュースはZENこと渡辺善太郎) グルーヴ地獄V (サウンド含む?開発 / プロデュースは電気グルーヴ) 大阪湾岸バトル (サウンド含む製作) R (ミュージックプログラム) 新世紀エヴァンゲリオン (N64)(サウンド) BEAT PLANET MUSIC (サウンドプログラム含む開発 / サウンドクリエイターは渡辺善太郎) サーフロイド (サウンド含む開発) ハンカチーフ (サウンド含む開発) 鬼武者 (マニピュレーション) UFC アルティメット ファイティング チャンピオンシップ (サウンド含む開発) UFC 2 TAP OUT (サウンド含む開発) ブレス オブ ファイアV ドラゴンクォーター UFC 2004 (オーパススタジオとしてサウンド含む開発) グラディエーター ロード トゥ フリーダム (オーパススタジオとして、サウンドプログラム、サウンドエンジニアリングを含む開発で参加) 関連リンク 株式会社オーパス - Opus - 公式サイト