スタートアップ
AgentGPTの成功後、ReworkdはウェブスクレイピングAIエージェントに転換
Reworkdの創業者は昨年、AgentGPTという無料のツールでGitHubでバイラルになり、1週間で10万人以上の利用者を獲得しました。これにより、彼らは2023年夏のY Combinatorのコーホートに参加する権利を獲得しましたが、共同創業者たちはすぐに一般的なAIエージェントの構築は幅広すぎると気付きました。したがって、Reworkdは現在、公開ウェブから構造化データを抽出するAIエージェントを専門とするウェブスクレイピング会社です。
AgentGPTは、ブラウザ内で独立したAIエージェントを作成できるシンプルなインターフェースを提供しました。すぐに、誰もがエージェントがコンピューティングの未来であると熱狂しました。
このツールが人気を博したとき、アシム・シュレスタ、アダム・ワトキンズ、スリジャン・スベディはまだカナダに住んでおり、Reworkdは存在していませんでした。大量のユーザーが押し寄せ、スベディ氏(現在はReworkdのCOO)は、そのツールが彼らに1日あたり2,000ドルのAPIコール料金をかけていると述べました。そのため、彼らは急いでReworkdを立ち上げ、迅速に資金調達を行いました。AgentGPTの最も人気のあるユースケースの1つは、比較的シンプルで高容量のWebスクレイパーの作成であったため、Reworkdはこれを唯一の焦点としました。
WebスクレイパーはAI時代において非常に重要となっています。2024年、組織が公開ウェブデータを使用する主な理由の1つは、AIモデルを構築するためです。これはBright Dataの最新レポートによるものです。問題は、従来、Webスクレイパーは人間によって構築され、特定のWebページにカスタマイズする必要があるため、コストがかかるということです。しかし、ReworkdのAIエージェントはより多くのWebを、より少ない人間の介入でスクレイプすることができます。
顧客は、Reworkdにスクレイプしてもらいたい数百、あるいは数千のウェブサイトのリストを提供し、興味のあるデータのタイプを指定します。その後、ReworkdのAIエージェントはこれを構造化データに変換するためにマルチモーダルコード生成を使用します。エージェントはそれぞれのウェブサイトをスクレイプするためのユニークなコードを生成し、そのデータを顧客が必要とするように抽出します。
たとえば、NFLの全選手の統計を必要とする場合、各チームのウェブサイトが異なるレイアウトを持っているかもしれません。しかし、Reworkdのエージェントは、単にリンクと抽出したいデータの説明を提供するだけで、あなたのためにそれを行います。32チームがあれば、あなたは数時間を節約できますが、1000チームが存在すれば数週間を節約できるかもしれません。
Reworkdは、パウル・グレアム、AI Grant(Nat FriedmanとDaniel Grossのスタートアップアクセラレータ)、SVエンジェル、ジェネラルキャタリスト、パナシュベンチャーなどからシード資金調達で新たに275万ドルを調達したことをTechCrunch独占で発表しました。これにより、昨年のパナシュベンチャーとYコンビネーターによる125万ドルのプリシード投資と合わせて、Reworkdの総調達資金額は400万ドルに達しました。
インターネットを利用するAI
San Franciscoに移った直後、Reworkdチームは創業研究エンジニアとしてRohan Pandeyを雇いました。彼は現在、AI時代におけるベイエリアでも最も人気のあるハッカーハウスの1つであるAGI House SFに住んでいます。ある投資家は、Pandey氏を「Reworkd内の1人の研究室」と表現しました。
「私たちはこれをセマンティックWebの30年にわたる夢の集大成と捉えています」とPandey氏はTechCrunchとのインタビューで述べ、「一部のウェブサイトにはマークアップがありませんが、LLMは人間と同じようにウェブサイトを理解できます。したがって、基本的にWebのどんなウェブサイトでもAPIとして公開できるようにすることで、ReworkdはインターネットのユニバーサルAPIレイヤーのような存在です」と述べました。
Reworkdは、大手競合他社と比べてよくスキップされる数千の小規模公開ウェブサイトの長尾エンドデータニーズをキャプチャできると主張しています。Bright Dataなど他の企業は、LinkedInやAmazonなどの大規模ウェブサイトのためのスクレイパーをすでに構築していますが、すべての小規模ウェブサイトに対してスクレイパーを構築する労力は値段の価値があるかどうかは疑問です。Reworkdはこの懸念に対処していますが、別の問題が発生する可能性もあります。
「公開ウェブデータ」とは具体的に何ですか?
AI時代において、数十年前からウェブスクレイパーは存在していますが、AI時代においては議論を呼んでいます。大量のデータを無制御にスクレイプすることで、OpenAIやPerplexityなどの企業が法的問題に巻き込まれています。ニュースおよびメディア機関は、これらのAI企業が支払いをしないまま多くの知的財産を有料コンテンツ背後から抽出して広範囲に再生産していると主張しています。Reworkdはこれらの問題を回避するための対策を講じています。
「私たちは、公に利用可能な情報を普及させることと捉えています」とReworkdの共同創業者兼CEOのシュレスタ氏はTechCrunchとのインタビューで述べ、「私たちは公に利用可能な情報だけを許可しており、サインインの壁などは通過していません」と説明しました。
さらに一歩踏み込んで、Reworkdは全くニュースをスクレイプしておらず、取り組む相手を選定しています。同社のCTOであるワトキンズ氏は、他にもニュースコンテンツを集約するためのより優れたツールがあると述べ、それが彼らの焦点ではないと語っています。
具体例として、Reworkdは、政策チームがEU全体の各国の政府規制文書からデータを抽出し、それをもとにAIモデルをトレーニングおよび微調整し、製品としてクライアントに提供する会社であるAxisとの取り組みについて説明しました。
AI時代にウェブスクレイピング企業を立ち上げることは、シリコンバレーに拠点を置く法律事務所Gunderson Dettmerのパートナーであるアーロン・フィスク氏によれば、危険な領域への進出と考えられるかもしれません。現在の状況は多少変動しており、AIモデルにとって「公開」ウェブデータが実際にどの程度公開されているのかについては、まだ決定されていません。ただし、フィスク氏は、顧客がどのウェブサイトをスクレイプするかを決定することで、Reworkdは法的責任から保護される可能性があると述べています。
「あたかも彼らがコピー機を発明したかのようで、非常に経済的に有益だが、法的には非常に疑問の余地があるコピーの1つの利用方法が、大きな問題になっています」とフィスク氏はTechCrunchとのインタビューで述べ、「ウェブスクレイパーがAI企業にサービスを提供することが必ずしもリスキーであるわけではないが、著作権で保護されたコンテンツを収集しようとするAI企業と取引を行っていると、問題になる可能性があります」と語りました。
そのため、Reworkdは取引先の選定に慎重に取り組んでいます。AI時代において、ウェブスクレイパーは著作権侵害の疑いの一部を救っています。OpenAIの場合、フィス
元記事はこちら