出版社を探す

人文学のためのテキストデータ構築入門

TEIガイドラインに準拠した取り組みにむけて

監:一般財団法人人文情報学研究所
他編著:石田 友梨
他編著:大向 一輝

紙版

内容紹介

より効果的にテキストデータを蓄積・共有し、広く世界につなげるために、人文学研究においてテキストデータはこれからどう作っていけばいいのか。
私たちの読みを残し、共有し、たどれるようにする、あるいはどう読んだかを次世代に継承するためには、どういう処理や方法が必要なのか。
今後の人文学研究にとって必須のテキストデータ構築の方法を、丁寧に解説、紹介していく書です。

欧米ではすでに、こういったことに1980年代から取り組んできており、TEI(Text Encoding Initiative)ガイドラインという形でルールを共有してきましたが、日本では文字の扱いなどで難しい部分もあり、導入が遅れていました。しかし近年状況が劇的に変化しつつあります。

本書では、今後の人文学のための、より広い世界につながっていけるようにするためのテキストデータの構築手法を、全4部構成でレクチャーします。第1部ではテキストデータの構築に関する概要とこれまでの日本での動向、第2部は、テキストデータ構築のための実践、第3部、4部はテキストデータ構築やその利活用に関する事例を紹介します。
特に実践編では、実際使用するソフトウェアについての紹介とチュートリアルを提供するなど、具体的に紹介し実践的に作られています。ぜひ本書をガイドに、自身のテキストデータを扱ってみて下さい。現時点で考え得る実現可能かつ有用性の高いテキストデータ構築の手法を提示しています。実践演習として「漱石書簡を用いたTEIによるテキスト構造化入門」も掲載。

事例も豊富に紹介しています。古代から近代、日本や中国、中東、欧州までと、広範囲におよぶうえ、仏典の一大叢書である大正新脩大藏経に対するTEIガイドライン準拠のための構造化を組織的に推進しているSAT大蔵経データベース研究会の取り組みも紹介しました。

これからの人文学研究のために、必携の書です。

執筆は、石田友梨/大向一輝/小風綾乃/永﨑研宣/宮川 創/渡邉要一郞/井上さやか/井野雅文/王 一凡/岡田一祐/小川 潤/片倉峻平/金 甫榮/小風尚樹/佐久間祐惟/左藤仁宏/中村 覚/南 亮一/矢島正豊。

【…ただいろいろなデータをテキストに書き込んでいくだけでは、そのデータをうまく読み取ることも、より広い観点から活用することも十分にはできない。それが深くなればなるほど困難さも増していく。そこで、何らかのルールに基づいてデータを構築していくことが有力な選択肢となる。欧米の先進国では、これに1980年代から取り組んできており、TEI(Text Encoding Initiative)ガイドラインという形でルールを共有し、それに基づいてすでに相当の蓄積をなしている。欧米に比べ、日本では文字の扱い等に困難さを抱えていたこともあり、そのような習慣が根付くことに時間がかかり、その一方で、欧米で作られたルール…

目次

はじめに:人文学のためのテキストデータ構築●永﨑研宣

・課題に正面から取り組むためのガイドブック
・知を蓄積・共有し、より広い世界へつなげる
・本書の構成

本書の読み方

第1部 概説編

第1章 人文学のためのテキストデータの構築とは●永﨑研宣

1.テキストデータベース構築に関する概況
2.元資料とテキストデータの整合性
3.元資料との関係をどう位置づけるか
3-1.文字がUnicodeに入ってない場合
3-2.字形・字体の相違をどう扱うか
3-3.文字の扱い方を記録しておく
3-4.誤転記を含むテキストの扱い
3-5.テキストデータ構築の深さ
3-6.学術編集のためのタグ付けについて
3-7.そもそもタグ付けとは
3-8.タグを介した外部情報との連結
3-9.参照情報ファイルを独立させる
3-10.タグの共通化に向けて

第2章 日本におけるテキストデータ構築の歴史●永﨑研宣
1.はじめに
2.大まかな時期の区分
3.1980年代の状況
4.1990年代の状況
5.2000年代の状況
6.2010年代の状況
7.2020年代から今後の可能性へ

COLUMN 1  TEIガイドラインで自分の資料を作り始めるには●永﨑研宣

1.はじめに
2.「モデル」を考えてみる
3.TEIの適用可能性について検討する
4.全体的な構造の方針
5.個別的な検討
6.人手で作業すべきかどうか
7.どこまで人手をかけるか
8.TEIを適用すべきでない場合
9.おわりに

第2部 実践編

第1章 Transkribusによる手書きテキスト資料の自動翻刻●宮川 創

1.OCRとHTR
2.Transkribusの概要
3.文字資料のスキャンに関する基礎事項
3-1.Transkribusに取り込めるファイル形式や枠組み
3-1-1.JPEG(Joint Photographic Experts Group; ジェイペグ)
3-1-2.TIFF(Tagged Image File Format; ティフ)
3-1-3.PDF(Portable Document Format; ピーディーエフ)
3-1-4.IIIF(International Image Interoperability Framework; 国際画像相互利用枠組み; トリプルアイエフ)
3-2.画像の単位
3-2-1.DPI(dots per inch;ディーピーアイ)
3-2-2.画素(ピクセル)
3-3.スキャナとカメラの種類
3-3-1.スキャナ
3-3-2.カメラ
3-3-3.ScanTent
4.画像前処理ソフトScanTailor
4-1.ScanTailorのインストール
4-2.プロジェクトの作成と画像読み込み
4-3.向きの訂正
4-4.ページ分割
4-5.傾きの修正
4-6.版面を選択
4-7.余白
4-8.出力
5.Transkribusのインストール
5-1.Transkribusアカウントを作る
5-2.Transkribus.zipのダウンロード
5-3.Transkribus.zipの解凍
5-4.Javaのインストール
6.Transkribusで画像を読み込む
6-1.Transkribusを開く
6-2.Transrkibusアプリ上でログインする
6-3.新しいコレクションを作る
6-4.ドキュメントのインポート
7.レイアウト分析
7-1.レイアウト分析の設定
7-2.リージョンの調整
7-3.ベースラインの調整
7-4.ポリゴンの調整
8.グラウンド・トゥルースの作成
9.トレーニング
9-1.デフォルトのトレーニング
9-2.追加トレーニング
9-2-1.コレクションやモデルの共有方法
9-2-2.追加トレーニングの実行
10.学習済みモデルを用いた文字認識
10-1.トレーニング
10-2.クレジット購入
11.TEI XMLやPDFへの出力、バージョン管理
11-1.TEI XML、PDF、プレインテキストなどへの出力
11-2.バージョン管理、その他
12.Transkribus Lite(ブラウザ版)
13.OCRopy
14.Kraken
15.eScriptorium
16.OCR4all
17.おわりに

第2章 Transkribus実践レポート:100年分のフランス語議事録翻刻プロジェクト●小風綾乃

1.はじめに
2.使用する史料について
3.約100年分の議事録に適応できるHTRモデルの作成は可能か
3-1.史料における前提と想定される選択肢
3-2.画像のインポート
3-3.レイアウト認識
3-4.翻刻テキストの作成
3-4-1.単年の議事録を使用したCITlab HTR+、PyLaia HTRモデルの比較
3-4-2.複数年に適用できるHTRモデルの作成
3-4-3.差分の可視化による翻刻精度の比較
3-4-4.小括:最善の翻刻方法
3-5.マークアップ
3-6.エクスポート
4.おわりに

第3章 TEIガイドラインとは●永﨑研宣

1.はじめに
2.TEI登場の文脈
3.TEIガイドラインの内容
4.TEI ガイドラインのアップデートと「国際化」
5.TEIガイドラインと人文情報学
6.本章のまとめ

第4章 実践演習:漱石書簡を用いたTEIによるテキスト構造化入門●原作:James Cummings・翻案:永﨑研宣

0.この演習を始める前に
0-1.ソフトウェアとデータの準備
0-2.XMLに関する最低限の基本的な知識
0-2-1.タグを追記して意味を付与する
0-2-2.タグには開始タグ・終了タグ・空白タグがある
0-2-3.タグは入れ子構造にできるが、オーバーラップはできない
0-2-4.エレメント(要素)とは0-2-5.アトリビュート(属性)とは
0-2-6.XMLにおけるサブセットの必要性とスキーマ
0-2-7.整形式の(Well-formed)XML文書と妥当な(valid)XML文書
1.実践演習1:基本的なマークアップでXML文書を作成する
1-1.学習の成果
1-2.要点
1-3.XMLファイルの新規作成を始める
1-4.〈text〉 エレメントを付与する
1-5.テキストを挿入する
1-6.手紙の基本的な構造を符号化(encodeing)する
1-7.段落と行をマークアップする
1-8.散文における改行
1-9.整形式(Well-formed)のXML文書を整形しインデントする
1-10.あなたの作業を保存する
1-11.セルフチェック
1-12.次回にすべきこと
2.実践演習2:妥当な(valid)TEI/XML文書の作成
2-1.学習の成果
2-2.要点
2-3.新しいXMLファイルを作成して開始する
2-4.〈TEI〉エレメント(要素)の挿入
2-5.〈teiHeader〉を追加する
2-6.〈text〉を追加する
2-7.日本語 TEIスキーマを関連づける
2-8.マークアップを改良する
2-8-1.日付・地名をマークアップ
2-8-2.〈add〉と〈del〉を追加する
2-8-3.〈closer〉を改良する
2-8-4.明らかな〈sic〉間違い〈/sic〉をタグ付けする
2-8-5.記述の正規化
2-8-6.縦書きスタイルと言語コードの記述
2-9.あなたの作品を保存する
2-10.セルフチェック
2-11.さらに先へ
3.実践演習3:より良い符号化(エンコーディング)の実践:書誌情報を深める
3-1.学習の成果
3-2.要点
3-3.はじめに
3-4.〈publicationStmt〉を改良する
3-5.〈sourceDesc〉に詳細な書誌情報を記述する
3-6.〈fileDesc〉 の他の構成要素
3-7.〈encodingDesc〉を追加する
3-8.〈profileDesc〉を追加する
3-9.〈revisionDesc〉を追記する
3-10.固有表現(人物・地名情報等)を記述する
3-11.あなたの作品を保存する
3-12.自己評価
3-13.もっと読みたい人へ
3-14.実践演習1〜3のまとめ

第5章 利活用演習:TEI準拠テキストの活用方法●永﨑研宣

1.基本的な考え方
2.Oxygen上での高度な検索
2-1.XMLの構造を活かした検索
2-2.XPath検索
2-2-1. XPathでエレメントを検索
2-2-2. XPathでエレメントを絞り込み
2-2-3. XPathで属性を絞り込み
2-2-4. XPathへの理解を深めるには
2-2-5.複数ファイルの同時検索
3.XSLTによる処理
3-1. XSLT文書を新規作成する
3-2. TEIの名前空間に関する情報を記述して保存
3-3. XML文書にXSLファイルを関連付ける
3-4. 「変換シナリオの設定」
3-5. 「新しいシナリオ」の設定-XSLT
3-6. 「新しいシナリオ」の設定-出力
3-7. 「変換シナリオの適用」をする
3-8. 本文〈body〉の内容を表示させる
3-9. 本文の段落を表示
3-10. 〈choice〉の選択を行う
3-11. 〈subst〉の表示を行う
3-12. 〈add〉を表示する
3-13. 〈closer〉の表示
3-14. 〈lb〉を改行させる
3-15. 縦書き表示
3-16. 余計な空白を削除する:適切な検索のために
3-17. 人名リストを取り出してみる
3-18. さらなる挑戦
3-19. XSLTのまとめ
4.既存のツールによる活用
5.保存と共有
6.おわりに

COLUMN 2  TEI協会 東アジア/日本語分科会の活動●永﨑研宣

1.はじめに
2.EAJ分科会の設置
3.EAJ分科会の活動
4.TEI翻訳会
5.TEI勉強会
・青空文庫でTEI
・TEI日本語ガイドライン作成とルビエレメントの提案
・『校異源氏物語』の校異情報マークアップ
6.おわりに

第3部 事例編:テキストデータ構築の最新事情①

[古辞書から最低限の共通要素を取り出す]
第1章 日本古辞書のTEI符号化 ●岡田一祐

1.はじめに
2.日本の古辞書について
3.文字標準化の埒外にある文献の翻刻
3-1.翻刻とはなにをすることか
3-2.古辞書の電子的な原典的翻刻の実際
4.TEI辞書モジュールとTEI Lex-0プロジェクト
4-1.辞書モジュールの前提とする構造と漢字字書の構造との相違
4-2.本モデルでの符号化について
4-3.TEI Lex-0
5.日本古辞書の符号化モデル
5-1.符号化の段階
5-2.ヘッダー
5-2-1.引用文献の記載
5-3.前置き・後置き
5-4.本文構造:分巻・分部
5-5.本文構造:項目
5-5-1.項目の符号化
5-5-2.親子項目の符号化
5-5-3.連続項目の符号化
5-5-4.組み込まれた・欠損した・欄外にある項目
5-6.本文構造:掲出字
5-6-1.単字項目
5-6-2.複字項目:熟字のばあい
5-6-3.複字項目:重出のばあい
5-7.本文構造:注文
5-7-1.注文の符号化
5-7-2.引用
5-7-3.字音
5-7-4.語釈
5-7-5.異体字
5-7-6.和訓
5-8.本文要素:書き入れ
5-9.本文要素:校訂
5-10.本文要素:割書きおよび改行の保存
6.符号化の例
6-1.『篆隷万象名義』
6-2.図書寮本『類聚名義抄』
6-3.参考:『色葉字類抄』
6-4.参考:『康煕字典』
7.おわりに

[日記および日程表のテキストデータを再構築して公開する]
第2章 TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築:「渋沢栄一ダイアリー」公開まで●金 甫榮・井上さやか

1.まえがき
2.『渋沢栄一伝記資料』デジタル化の歩み
3.TEIマークアップ の検討
3-1.TEIを用いる理由
3-2.構造化について考える
4.テキストデータの再構築
4-1.共同研究の始まり
4-2.マークアップ方針
4-2-1.マークアップの深さ
4-2-2.構造化
4-2-3.固有表現
5. 成果
5-1.テキストデータの改善
5-2.「渋沢栄一ダイアリー」の公開
6.あとがき

[財務史料の原史料へのアクセスと計算可能性を確保する]
第3章  TEIとRDFを用いた財務史料の構造化:古代日本・近世スペイン・近代イギリスを事例に●小風尚樹

1.はじめに
2.財務史料の構造化におけるふたつの困難
3.財務史料の構造化に関する方法論的考察
3-1.TEI P5
3-2.Transactionography
3-3.XBRL
3-4.DEPCHA
4.事例研究
4-1.古代日本史
4-2.近世スペイン複式簿記史料
4-3.近代イギリス会計史料
5.財務史料の標準的構造化データの意義
5-1.TEIにおける相互運用性の限界と克服に向けた取り組み
5-2.分析プログラムの開発
6.まとめ

[TEI/XMLファイルを作成した後のプロセス]
第4章 TEIデータの可視化方法と事例紹介●中村 覚

1.はじめに
2.TEIデータの可視化方法
2-1.導入
2-2.可視化ツールの例
2-2-1.Voyant Tools
2-2-2.校異情報の可視化
2-2-3.TEI Publisher
2-2-4.Omeka S
3.独自開発
3-1.導入
3-1-1.CETEIcean
3-1-2.発展:JavaScriptフレームワークでの利用
3-2.事例紹介
3-2-1.事例1:TEI-C東アジア/日本語分科会[2]
TEI Multi Viewer
校本風異文可視化ツール
戯曲のLINE風チャット画面での表示
書簡の送受信情報の可視化
3-2-2.事例2:デジタル源氏物語[3]
3-2-3.事例3:渋沢栄一ダイアリー[4]
日付、時間
人物関係の可視化
3-2-4.事例4:東京大学史料編纂所「蒋洲咨文」[5]
4.まとめ

[プログラミングなしに人名を自動抽出するための道を拓く]
第5章 Transkribusを用いたTEIの人名タグ付きテキストの機械学習による自動人名抽出:ジャアファル・ブン・イドリース・カッターニー『目録』を例に●石田友梨

1.はじめに
2.カッターニーの『目録』について
3.人名の自動抽出方法
4.抽出結果の評価
5.おわりに

COLUMN 3  TEIにおけるセマンティック記述と〈standOff〉●小川 潤

1.はじめに
2.インラインとスタンドオフ
3.TEIにおける〈standOff〉要素の導入
4.TEIとセマンティックデータ

第4部 事例編:テキストデータ構築の最新事情②

[マークアップの方針をどう立てるか]
第1章 大正新修大蔵経TEI化に関する概略●渡邉要一郎

1.はじめに
2.概要
3.本文の構造化
3-1.広義の本文の確定
3-2.狭義の本文の階層性
3-3.奥書に関して
3-4.【補足】孤立的なブロックの階層性について
3-5.「巻」の区分
3-6.「巻」に付随する要素
4.脚注の構造化
4-1.異読情報
4-2.異読情報でない脚注
4-3.複雑な異読情報
4-4.省略表記の処理
4-5.「誤り」の記述4-5-1.誤字の記載
4-5-2.アンカー位置の間違い
4-6.註の追加
4-7.〈lem〉が長くなる場合
5.結びにかえて

[研究成果をマークアップする意義や今後の課題]
第2章 日本仏教における研究成果のマークアップ:日本天台の文献研究に着目して●矢島正豊

1.はじめに
2.日本天台の文献研究におけるTEI活用の意義
3.『天台真言二宗同異章』のマークアップ
4.『真言宗教時義』のマークアップ
5.今後の課題

[禅語録のマークアップの作業方針を検討する]
第3章 禅籍の構造とTEIマークアップ:T2591義雲和尚語録を例として●佐久間祐惟

1.はじめに
2.T2591義雲和尚語録の構造
3.語録のTEIマークアップ
(1)上堂のマークアップ
(2)法語のマークアップ
(3)頌古のマークアップ
(4)刊語・奥書・跋文のマークアップ
4.おわりに

[比較検討をするための内容に沿った段落区分を考える]
第4章 大正新修大蔵経テキストのTEI構造化における「私的パラグラフ」の設定●井野雅文

1.はじめに
2.問題の所在
3.対策
4.今後の課題
5.結論

[規格自身の限界に直面したときは規格の拡張によって克服する]
第5章 『續一切経音義』を通じた外字と割注の課題●王 一凡

1.はじめに
2.『續一切經音義』の性質
3.外字の問題
4.割注形式の問題

[特殊な事情をもったテキストをマークアップするための準備]
第6章 知識グラフを表現する:『愚禿鈔』のマークアップを例として●左藤仁宏

1.はじめに
2.TEIにおける〈standOff〉エレメントの意義
3.『愚禿鈔』の抱える事情とマークアップ方針
『愚禿鈔』の概要
『愚禿鈔』の図表的文体
『愚禿鈔』の文体に対するTEIマークアップ方針
4.諸概念の関係の種類とマークアップ方法
A.親子関係(hasParent)
B.同一関係(sameAs)
C.説明関係(explanationOf)
D.兄弟関係(hasSibling)
E.類似関係(similarWith)
5.本研究の課題

[蓄積してきたTEIマークアップのノウハウを生かす方法]
第7章 大正新脩大蔵経TEI化作業の中国古典籍への援用●片倉峻平

1.はじめに
2.中国古典籍にTEI記述が求められる背景
2-1.中国古典籍デジタル情報化の現状
2-2.中国古典籍の特徴
3.大正新脩大蔵経TEI化作業で確立した手法の援用
a.巻頭・巻末情報
b.篇題情報
c.割注
d.韻文
e.異読情報
4.おわりに

COLUMN 4  著作権法改正で Google Booksのような検索サイトを作れるようになる?●南 亮一

1.はじめに
2.検索サイトを作るための条件
3.表示できる著作物の範囲は?
4.おわりに

あとがき●大向一輝・永﨑研宣

タグ索引(用語編・XML編)
用語解説
編者&執筆者一覧


TEI活用の事例紹介(1)〜(6)●永﨑研宣

(1)BNC(British National Corpus)– 言語コーパス
http://www.natcorp.ox.ac.uk/
(2)The Folger Shakespeare – 戯曲の構造的記述
https://shakespeare.folger.edu/
(3)TEI by Example - 学習ツール
https://teibyexample.org/
(4)FAUST EDITION - 学術編集版
http://www.faustedition.net/
(5)Cambridge Digital Library – 詳細な書誌情報と版面画像から全文テキストまで
https://cudl.lib.cam.ac.uk/
(6)Vincent van Gogh The Letters - 書簡のマークアップ
https://vangoghletters.org/vg/

著者略歴

監:一般財団法人人文情報学研究所
2010年、SAT大蔵経テキストデータベースの運用を支援しつつ、これを基礎とする仏教学のためのデジタル研究環境構築を目指し、人文情報学的知見を開発して人文知の宝庫である仏教の研究を推進し、さらに、これをとおして人文学全体を振興するとともに、広く人類精神文化の発展に寄与する目的をもって設立された研究所。仏教経典研究部門、仏教写本研究部門、人文情報学研究部門の三部門を擁する。これらの各部門における研究活動に加えて、2011年より月刊の無料メールマガジン『人文情報学月報』を発行し、日本デジタル・ヒューマニティーズ学会の事務局を引き受ける等、人文情報学に関わる情報共有と連携を重点事項の一つと位置づけて取り組みを続けている。ハンブルク大学、国文学研究資料館等と連携協定を結んでいる。
東京都文京区本郷5-26-4-11F TEL:03-6801-8411 FAX:03-6801-8412
https://www.dhii.jp/
他編著:石田 友梨
岡山大学学術研究院社会文化科学学域助教(特任)。論文に「18世紀インドにおけるカリフ制社会論―イスラーム改革思想家シャー・ワリーウッラーの『究極のアッラーの明証』より―」(『アジア太平洋討究』25、2015年、49–68頁)、「インドにおけるイスラーム神秘主義の霊魂論―シャー・ワリーウッラー・ディフラウィーを例に―」(International Journal of the Asian Philosophical Association, Vol. 9, No.1, 2016, pp. 111–131)、「イスラーム研究におけるデジタル・ヒューマニティーズの活用に向けて―シャー・ワリーウッラー『ハラマインの師たちの瞳孔』に基づく一七–一八世紀ハラマインの学者ネットワーク分析―」(『イスラーム地域研究ジャーナル』8、2016年、25–36頁)など。
他編著:大向 一輝
1977年生まれ。東京大学大学院人文社会系研究科准教授。著書に『ウェブがわかる本』(岩波書店、2007年)、『ウェブらしさを考える本』(丸善出版、2012年、共著)、論文に「オープンサイエンスと研究データ共有」(『心理学評論』61-1、2018年)など。

ISBN:9784909658845
出版社:文学通信
判型:B5
ページ数:424ページ
価格:3000円(本体)
発行年月日:2022年07月
発売日:2022年08月04日
国際分類コード【Thema(シーマ)】 1:VS