WARC コンバーター
ウェブアーカイブファイル (WARC) からテキストを抽出
WARC ファイルからテキストを抽出する方法
- 上記の "ファイルを選択" ボタンをクリックし、WARC ファイルを選択します。
- 利用可能な場合は、プレビューが表示されます。
- "ファイルを変換..." ボタンをクリックして、テキスト情報を抽出します。
WARC を別のファイルタイプに変換
WARC アーカイブ を別の形式に変換する、Webrecorder または ウェブ ソフトウェアが必要です。
ファイルを WARC に変換
他のファイル形式を "ウェブアーカイブ形式" ファイル形式に変換するには、Webrecorder または類似のソフトウェアが必要です。
WARC ファイルについて
WARC (Web ARChive) ファイル形式は、デジタルのウェブ保存における国際標準 (ISO 28500:2017) だ。HTTPリクエストとレスポンスヘッダーの完全なシーケンスを、.HTMLページ、画像、スクリプトなどの実際のウェブペイロードとともに、1つの連結されたファイル内に保存する。International Internet Preservation Consortiumのような組織や、ArchiveTeamのようなアーカイブプロジェクトは、インターネットの歴史をキャプチャして保存するためにこの形式に依存している。技術仕様の詳細については、Wikipediaで確認できる。包括的なウェブデータを保存する強力な機能を持つ一方で、.WARC形式は一般ユーザーにとって管理が非常に難しいことで知られている。これらのファイルは通常非常に大きく、数十ギガバイトを超えることも多いため、処理や転送が極めて遅くなる。Google ChromeやMozilla Firefoxなどの標準的なウェブブラウザではネイティブにサポートされていない。そのため、キャプチャされたページを元の状態で表示するだけでも、Webrecorderのような専用の再生ツールをインストールして設定するか、Pythonスクリプトを実行する必要がある。巨大な.WARCコンテナから単一の画像やテキストファイルを抽出することは、コマンドラインの知識と専用のインデックスファイルがなければ非常に非現実的だ。保存されたデータをアーカイブ環境外でアクセス可能かつ利用可能にするには、通常、変換または抽出が必要になる。オフラインで読むには、静的な.HTML、.CSS、.JSファイルを含む標準的な.ZIPアーカイブにコンテンツを抽出するのが最適だ。キャプチャされたセッションから特定のドキュメントのみが必要な場合は、ターゲットページを直接.PDFに抽出するか、生の.TXTデータを取得するのが最も実用的なアプローチだ。ここに.WARCファイルをドラッグ&ドロップするだけで、ブラウザ上で安全にコンテンツを解析・抽出できる。無料でオンラインで利用でき、複雑な再生ソフトウェアをインストールする必要もない。
Convert.Guru はWARCファイルを分析し、正確な形式を検出して、中のテキストを読めるようにします。
ほかのユーザーは WACZ, GZ, WEBARCHIVE, CDX, 3DM, ZIP ファイルも変換しました。
よくある質問
WARC ファイルを ZIP, RAR, 7Z, TAR, GZ, BZ2, XZ, LZMA, CAB, ACE, ARJ または LHA に変換したい場合は、Webrecorder または「ウェブアーカイブコンテナ」カテゴリの同様のソフトウェアを使用できます。[ファイル] メニューで 名前を付けて保存… または エクスポート… を探してください。
XXE, 7Z, Z, PAK, LHA, DEB, UUE, TAR, LZH, ZIP, PKG または RAR ファイルを WARC に変換するには、Webrecorder または「ウェブアーカイブコンテナ」カテゴリの他の同等のツールを試してください。
WARCコンバーターについて
Convert.Guru は、25年以上にわたり維持・更新されてきた、世界最大級かつ信頼性の高いファイル形式データベースの一つを基盤としています。 当社の形式判定機能は、WARC を高い精度で識別します。ファイル名が誤っている場合や破損している場合でも対応し、一般的な形式へ変換できます。WARC コンバーターは登録やインストール不要で、ブラウザ上でそのまま利用できます。 アップロードされたファイルは、変換後に自動的に削除されます。