未来の課題に向けて現在のデータエンジニアリングを強化

データエンジニアリングは今が最も重要なときです。AI、高度なアナリティクス、データドリブンなアプリケーションの発展を考慮すると、データエンジニアはこれらのテクノロジーを活用する準備を整えるうえで不可欠な存在となっています。これまで注目を浴びることのなかったこれらのヒーローたちは、いま、組織を将来の成功に導くミッションクリティカルなデータパイプラインを構築しています。しかし、この機会は、課題なしには訪れません。テクノロジースタックの分断、性能のボトルネック、専門的な人材の高額化が常態化しており、イノベーションの妨げとなり、隠れたコストが増大し、進歩が阻害されています。
Snowflakeでは、もっと良い方法があると考えています。Snowflakeは、データパイプライン作成プロセスの合理化や、非構造化データと構造化データを同じインフラストラクチャー内で統合することなど、現代のデータランドスケープの複雑さに対処するためのツールとプラットフォームを提供することに取り組んでいます。私たちは、プロセスを合理化し、コラボレーションを促進し、データの真の可能性を引き出すイノベーションにより、お客様に自信を持って先頭に立ってもらいたいと考えています。つまり、退屈なチューニングや、時代遅れのデータエンジニアリングシステムに関わる煩瑣なメンテナンス作業に費やす時間を減らすことができます。データエンジニアは、自由に新しいユースケースを発見し、未知の領域を開拓することができます。
Snowflakeのデータエンジニアリングの未来に関するビジョンは、複雑なものをシンプルにし、インサイトを民主化し、これまで以上につながりを深めます。今なら、データでできることがもっとあります。
本日は、そのような未来に向けて構築された新機能と製品アップデートを発表できることを嬉しく思います。このブログ記事では、効率的なデータパイプラインを構築し、オープンレイクハウスイニシアチブを加速させ、AIや非構造化データを驚くほど簡単にワークフローに統合する際に、これらの機能とそれらが提供する価値について詳しく説明します。Snowflakeを利用することで、データインフラストラクチャーの複雑さを解消し、価値の提供とイノベーションの推進に注力できます。
データエンジニアリングのためのSnowflakeの最新イノベーションを発表
Openflow:データ移動に革命を起こす
Snowflake Openflowは、データソースと宛先の間で簡単にデータを移動できる、オープンで拡張可能なマネージド型マルチモーダルデータ統合サービスです。構造化、非構造化、バッチ、ストリーミングなど、あらゆるデータタイプをサポートするOpenflowは、AIのシームレスな抽出、変換、ロード(ETL)処理を実現するためのカギとなる、Snowflake内での直接のデータ移動に革命をもたらします。すべてのデータ統合は1つのプラットフォームに一元化されており、あらゆるデータソースに接続できる無限の拡張性と相互運用性を備えています。あらゆるデータアーキテクチャを促進するOpenflowにより、企業はエンタープライズグレードの信頼性とガバナンスを確保し、統合ニーズを確実にスケーリングすることができます。すぐに使える何百ものコネクタとプロセッサにより、戦略的パートナーシップのコネクタなど、幅広いデータソースからのデータ統合を簡素化し、迅速に加速します。たとえば、Snowflakeは、変更データキャプチャ(CDC)をOracleデータベースからSnowflakeに複製するための高性能、スケーラブル、コスト効率の高いソリューションでOracleと提携しています。

Snowflake Openflowでできること:
ビジネスに必要なあらゆるコネクタでデータを移動。
ETLパイプラインを活用し、AIエージェントが機械的な速度で意思決定を行う。
柔軟な展開、データの可観測性、ガバナンスを備えたスケーラブルでエンタープライズ対応の統合を構築。
Snowflake上のdbtプロジェクト
堅牢でスケーラブルなデータパイプラインを構築するには、効果的なデータ戦略の中核を成す要素としての変換が不可欠です。本日は、データパイプラインの構築とオーケストレーションのための、もう1つの画期的な製品の開発を発表します。それは、dbt Projects on Snowflake(近日中にパブリックプレビュー開始)です。
dbtは、SQLとSnowparkのデータ変換ワークフローにおけるソフトウェアエンジニアリングのベストプラクティスと効率性の向上を、そのままSnowflakeで実現する機能で、データチームの間で人気があります。この新しいネイティブオプションにより、データチームはSnowsight UIで直接dbtプロジェクトを構築、実行、監視できるようになり、コンテキストの切り替えが減り、セットアップが簡素化され、データパイプラインの開発ライフサイクルが加速されます。
dbtプロジェクトのサポートにより、次のことが実現します。
新しいチームが統一されたガバナンスでパイプラインを構築、展開できるようにする:データとパイプラインの統一されたガバナンスとセキュリティモデルを備えた直感的なインターフェースを通じて、オンボーディングを促進し、新しいチームが必要とするパイプラインを作成できるようにします。
システムを統合して管理業務を削減し、デバッグを改善:dbtをSnowflake上でネイティブに実行し、パイプライン開発ライフサイクルを合理化することで、開発者の生産性を高め、問題を迅速に特定して対処します。
これらの機能はほんの始まりにすぎません。ワークフローのさらなる合理化と強化のための優れたアップデートが近日公開予定です。
SQLおよびPythonパイプラインの強化
最近、最も人気のある機能のいくつかが強化され、データエンジニアリング環境全体で複雑なワークフローが簡素化され、コラボレーションSQLワークフローから複雑なPythonパイプラインまで、あらゆるものが影響を受けます。これらの改善は、さまざまなツールやテクノロジーを使用するデータエンジニアのプロセスを効率化し、効率性を高めることを目的としています。
ダイナミックテーブルは、バッチパイプラインとストリーミングパイプラインの両方に対応する宣言型フレームワークであり、自動オーケストレーションと継続的処理によってセットアップを簡素化します。注目すべきアップデートには、Apache Icebergの完全サポート、ニアリアルタイムパイプラインのレイテンシーの削減(約15秒、プライベートプレビュー中)、さまざまなSQL操作のパフォーマンス強化が含まれます。さらに、新しいSQL拡張機能(近日中に一般提供開始)により、更新や削除を防止し、データのバックフィルを可能にすることで、パイプラインのセマンティクスをより適切に制御できます。
ハイブリッド実行(プライベートプレビュー中)を備えたSnowflake上のpandasは、すべてのデータスケールでpandasパイプラインをサポートしています。この機能は、大規模なデータセットの場合はSnowflakeにプッシュダウンするか、小規模なデータセットの場合は標準pandaでローカルにクエリを実行することで、開発ライフサイクルを通じて一貫した効率的なパフォーマンスを実現します。
オープンレイクハウス
Snowflakeの包括的なApache Iceberg™テーブルサポートにより、データの断片化を解消し、インサイトやAIを得るまでの時間を短縮します。現在、データエンジニアはオープンでコネクテッドなレイクハウスの構築方法を根本的に再定義できます。Icebergエコシステムのほぼ全体を単一のコンソールに自動的に一元化してアクティベートすることで、データライフサイクルを簡素化し、データの発見とアクセスのための複雑なプロセスを排除します。ParquetファイルのIcebergテーブルへの変換の継続的なサポートと、新たに利用可能になったファイルサイズとパーティションの最適化により、オープンレイクハウスでより多くのデータを取り込みながらパフォーマンスを向上させることができます。
Snowflakeのレイクハウス機能の強化により、以下のことが実現します。
ほぼどこからでもデータを発見、活用:Snowflakeオープンカタログまたはその他のIceberg REST互換カタログをカタログリンクデータベースとSnowflakeに統合し、オープンレイクハウスの単一の接続ビューを構築します。まもなくパブリックプレビューが開始されます。Snowflake AIデータクラウドの統合コンピュートエンジンとコストパフォーマンスの高いエンジンにより、基になるテーブルを自動的に発見、更新、有効化します。
統合されたガバナンスによる変換と最適なパフォーマンスの実現:最近パブリックプレビュー中の外部管理Icebergテーブルへの書き込みサポートにより、Snowflake内のIcebergエコシステム全体でシームレスなデータ変換を実行し、Snowflake Horizon Catalogを活用した包括的なガバナンスとセキュリティを活用できます。ほぼすべてのIcebergテーブルにファイルサイズとパーティションを定義することで、Snowflakeでパフォーマンスをコントロールできます。まもなくパブリックプレビューが開始されます。テーブル最適化(近日中にパブリックプレビュー開始)を活用し、ガベージコレクションや圧縮などを自動化します。インフラストラクチャーの管理に費やす時間を減らし、効果を生み出すために費やす時間を増やす
Icebergテーブルの宣言型パイプラインの構築:Dynamic Icebergテーブルは、Icebergテーブルに格納されているデータを継続的かつ段階的に変換し、完全な相互運用性を維持するフルマネージド型オーケストレーションソリューションです。SnowflakeマネージドIcebergテーブルのサポートが一般提供されました。外部マネージドIcebergテーブルのサポートは近日中に一般提供されます。
高度なアナリティクス:Icebergテーブルで利用可能になったVARIANTサポートで、お持ちの半構造化データの価値を解き放ちます。地理空間データ型とジオメトリデータ型をシームレスに統合(近日中にプライベートプレビュー開始)し、位置を認識する詳細なインサイトを獲得します。現在プライベートプレビュー中のMerge on Readのサポートにより、Snowflake内でより多くのIcebergエコシステムをアクティベートできるようになりました。
データ移行なしでDelta LakeデータをIcebergテーブルとしてアクセス:デルタテーブルのメタデータをIcebergテーブルに変換することで、データの取り込みや基礎となるParquetファイルの移動なしに、より多くのデータをオープンでコネクテッドなレイクハウスに取り込むことができます。
オープンカタログの統合とエンタープライズグレードのセキュリティを強化
SnowflakeのIcebergテーブルの可能性を最大限に引き出し、包括的なセキュリティとガバナンスを実現します。オープンカタログが管理するIcebergテーブルを自動的に同期することで、統合された読み取り/書き込みアクセスと、Horizon Catalogを利用した一貫性のある統合ガバナンスを、すべてSnowflake環境内で獲得できます。HorizonがSnowflakeクエリを管理し、Open Catalogが外部マルチエンジンアクセスを処理することで、ガバナンスが明確に分離され、セキュリティ体制の曖昧さが解消されます。さらに、エンタープライズグレードのセキュリティ機能がオープンカタログで利用できるようになりました。これにより、安全で相互運用性のある、ベンダーニュートラルな主要カタログへの安全なユーザーアクセスとプライベートデータ接続が提供されます。
Snowflakeのオープンカタログの機能強化により、以下のことが実現します。
安全なエンタープライズグレードのユーザーアクセスを実現:SAML 2.0によるシングルサインオン(SSO)でシームレスなUIアクセスを実現し、好みのIDプロバイダーまたはSnowflakeのネイティブキーペア認証ソリューションとのOAuthを通じて、エンジンやサービスの垣根を越えて安全にプログラム統合できます。
メタデータアクセスのための双方向プライベート接続をアクティブ化:統合されたセキュリティフレームワークであるPrivate Linkを活用して、データ、Snowflake、エンジン、ツール、Snowflakeオープンカタログ間の保護された接続を確立し、データのライフサイクル全体にわたってプライバシーとコンプライアンスを確保します。
Icebergエコシステム全体へのアクセス:Apache Polarisのカタログフェデレーションにより、事実上すべてのIcebergテーブルへのシームレスなアクセスを実現(インキュベーション中)。フェデレーションは、すべてのリンクカタログの単一のビューを作成することで、データディスカバリーを合理化し、Iceberg RESTカタログ統合をサポートするあらゆるエンジンでアクティベーションを有効にします。フェデレーションはまもなくプライベートプレビューとなるオープンカタログに参加する予定です。
デルタテーブル管理を簡略化:IcebergテーブルとDeltaテーブルの両方をSnowflakeオープンカタログに一元化します。DeltaテーブルとIcebergテーブルにまたがるアクセスの作成、更新、削除、管理を一元化できます。Snowflake内で両方のフォーマットを自動的に検出し、デルタテーブルをクエリできるようにします。これにより、レイクハウスアセットの統合的な可視化とコントロールが実現します。Apache Polarisのマネージドサービス(インキュベーション)であるオープンカタログのデルタテーブルが、まもなくプライベートプレビューとなります。
最新のDevOpsエクスペリエンス
開発者の生産性の向上により、現状維持ではなく価値の高い業務に注力し、短期間で効果を発揮しましょう。SnowflakeのDevOps機能を使用すると、CI/CD、コード開発、インフラストラクチャ管理のベストプラクティスに重点を置き、Snowflake環境のソフトウェア開発ライフサイクルを合理化および自動化できます。最新のDevOpsツールやSnowflakeのAIサポートと組み合わせることで、開発タスクと運用タスクをスムーズに統合し、より生産的で効率的なワークフローを実現できます。
SnowflakeでのDevOpsエクスペリエンスを継続的に改善するというコミットメントに沿って、いくつかの新しいアップデートを発表いたします。
Snowflakeワークスペース:すべてのSnowflake開発タスクに最新のUIを提供します。dbtプロジェクトとSQLサポート以降、ビルダーはSnowflakeでファイルを扱うときに、ネイティブGit統合、並列ビジュアル差分、インラインAI Copilotコードアシスタンスなどの豊富な開発者機能を備えた単一の共通IDEを活用できます。今後、追加のオブジェクトサポートが提供されます。
Terraformを使用したSnowflakeインフラストラクチャ管理:Snowflake Terraformプロバイダーは、HashiCorp Terraformを使用してSnowflakeリソース(ウェアハウス、データベース、スキーマ、テーブル、ロール、許可など)を管理するための一貫したワークフローをコードとしてのインフラストラクチャー(IaC)で管理します。
Gitレポジトリに接続するその他の方法:カスタムURLを使用してGitレポジトリに接続できるようになり(既知のドメインに属するレポジトリに限定されず)、Git環境をより柔軟に構成できるようになりました。
Python 3.9ランタイムのサポート:SnowflakeウェアハウスノートブックでPython 3.9を使用できるようになりました。
未来がきた
Snowflakeの最新イノベーションは、データエンジニアリングにおける最大の課題に真正面から取り組むよう設計されています。これらの進歩がデータ戦略にどのような革命をもたらすかを見てみましょう。
より良いパイプラインの構築
最新のデータエンジニアリングは、合理化されたコラボレーションとスケーラビリティによって支えられています。Openflowやdbt Projectsなどの機能により、取り込みと変換のネイティブ機能を拡張することで、Snowflakeの安全な環境内でのシームレスな連携を可能にします。また、オープンスタンダードやdbtやIcebergなどの一般的なオープンソースソフトウェア(OSS)の柔軟性もサポートしており、既存のワークフローに簡単に統合できます。
複雑なインフラストラクチャーの管理業務から解放され、価値の高い業務に注力できます。サーバーレスの変換とオーケストレーションのオプションにより、コンピュートクラスタのホスティングと管理が不要になり、優れたパフォーマンスが実現します。さらに、自動化はプラットフォームの中核であり、CI/CD、デプロイメント自動化、堅牢なインフラストラクチャ管理を通じて開発ライフサイクルを合理化します。
オープンレイクハウスを加速
オープンなレイクハウスは、油の行き届いた機械のように稼働し、保管場所に関係なく、あらゆる形式のデータをシームレスに処理できる必要があります。Snowflakeでは、すべてのデータを簡単に接続、変換、アクティベートできます。セキュリティとガバナンスが最も重要です。当社のプラットフォームは、堅牢なデータ保護、きめ細かいアクセス制御、データマスキングや監査アクセスなどの包括的なガバナンス手段を提供します。Snowflakeを利用することで、データエコシステム全体でデータの品質、精度、信頼性を安心して維持できます。私たちは、最適化されたツールと標準によってイノベーションと生産性を促進するデータ環境を育てることに取り組んでいます。同時に、ビジネスの進化に合わせてアーキテクチャを簡単に拡張できるようにします。
データをAIに活用
非構造化、半構造化、構造化データを統合するSnowflakeの機能により、AIの力を解き放ちましょう。テキスト、ドキュメント、画像、その他の非構造化データを既存の構造化データとシームレスに組み合わせ、AIモデルの包括的な基盤を構築します。Openflow(Snowflake Cortex AIプロセッサーを搭載)やDocument AIなどの機能を活用し、LLMやAIの力をパイプライン内で直接活用しましょう。Snowparkの強力な機能を使用し、Pythonなどの使い慣れた言語を使用して非構造化データを大規模に処理および変換します。
また、Snowflakeでは、トップクラスのLLM、最先端の検索拡張生成(RAG)などの高度な生成AIサービスをCortex AIで活用することにより、最先端の生成AIアプリケーションを構築、展開できます。Openflowを使用し、多様なデータ構造と要件をサポートすることにより、エンタープライズデータランドスケープ全体をニアリアルタイムの双方向データフローでAIに接続します。AI向けデータパイプラインの複雑さを簡素化し、複数のチームにまたがるさまざまなツールに対処する必要性を排除します。Snowflakeの統合セキュリティ、ガバナンス、可観測性により、AIソリューションを本番環境に自信を持って提供し、すべての段階で信頼性を高めることができます。
このようなデータエンジニアリングの進歩について詳しくは、2025年7月29日に開催されるSnowflakeのData Engineering Connectイベントにご登録ください。