2024年1月4日木曜日

2024 : 新年のご挨拶

新年が明けました。今年は元旦から能登半島地震、2日には航空機の事故と、心痛む事が立て続けに起きてしまいました。被災された方々にはお見舞いを申し上げると共に、地震・事故で亡くなった方には心よりお悔やみ申し上げます。

まだ救出を待つ方や、避難生活をされている方が大勢居る状況ですが、自分が出来る事を行って行きたいと思います。


2024年初日の出(小金井市の野川沿いにて)
 

本年もよろしくお願いいたします。


2023年12月31日日曜日

2023年の振り返り

2023年も残すところあと一日になりました。

年々、時間の経過が早く感じられますが、コロナ禍明けの今年は特に早く感じられました。そんな今年の振り返りです。

・Generative AIの普及

 今年一番のトピックはなんと言ってもGenerative AIでしょう。今更説明する必要も無いくらい、ChatGPTの出現は驚きでしたし、瞬く間に普及、そしてWindows Copilotを始めとする一般製品にも組み込まれていきました。このままでは人の仕事が無くなるとか、楽して仕事が出来る。みたいな事も言われましたが、逆にプロンプトエンジニアといった新しい考え方・テクニックも出てきましたが、でもその本質は「相手に仕事の指示を的確に判りやすく伝える」という「人としてのコミュニケーション技術」だったというのも、皮肉な感じがしました。

・リアルイベント開催の復活

 コロナ禍が明けたと実感できるのは、今までオンラインで開催されていたイベントがリアル開催されるようになり、久しぶりに大勢の集まりに参加したり、フェイスtoフェイスで会話が出来るなど、元の世界が戻ってきた喜びがありました。

・GX30 : GeneXusインターナショナルミーティング

 イベントといえば、GeneXusインターナショナルミーティングもリアル開催となりました。私も久しぶりにウルグアイに渡航し、参加してきました。目玉としては、りそな銀行・NTTデータソフィアの方々も一緒にイベントに参加していただき、講演も行いました。





2024年はどんな年になるでしょうか。私は世界が平和になるように願ってやみません。

皆さんにとって良い一年になりますように。







2023年12月11日月曜日

4年ぶりリアル開催のGeneXusインターナショナルミーティング : GX 30に参加して

 みなさん、こんにちは。暫くぶりの投稿です。

2023年11月28日から3日間、ウルグアイにてGeneXusインターナショナルミーティング GX 30が開催されました。


前回が2019年になるので4年ぶりのリアル開催でした。本当に久しぶりに世界中から集まった面々に会えてとても懐かしく、嬉しく思いました。

オープニングキーノートスピーチをするニコラス・ホダールCEO


さて、イベントを通じてのレポートを幾つか。

イベントの参加人数は少なめでした。以前はメインホール(BallRoom)が一杯で立ち見で溢れるほどでしたが、今回は空席もチラホラ。GeneXus社の人に聞いたら、オンライン参加者が多いとの事。イベント参加もパンデミック後の新様式でした

GeneXus 社の講演ではやはりAI関連が目立っていました。GeneXus Next と、GeneXus Enterprise AI の二つです。それぞれをざっくり説明します。

・GeneXus Next は以前の投稿でも紹介しましたが、Webベースのノーコード開発ツールです。自然言語で記述した業務要件をAIが解析し、トランザクションオブジェクトを定義、WorkWithPlusパターンとデザインシステムを適用する事でメンテナンスのUIまで自動生成してくれます。「業務要件を記述」というと、どのレベルまで書くとどんな内容まで実装してくれるの?と気になる所ですが、今時点では

・トランザクションストラクチャの出力

・ビジネスプロセスダイアグラムの出力

でした。これも機能的には追加されていくものと思われます。

既存のGeneXusとの関係が気になりますが、講演の中では「ノーコードでモデリング」と言っていましたので、GeneXus を置き換えるものではなく、要件定義時のモデリングツール的な使い方をイメージしているのではないでしょうか?また、Nextで実装した技術をGeneXusにも実装していくと言っていましたので、AI機能の実験場であるのかもしれません。

あとはマルチプラットフォーム IDE という言い方も(Web版とは別に)していました。こちらはVS Code のプラグインで提供されるのかもしれません。



・GeneXus Enterprise AI は、LLMに対するコネクタ製品との事。自分で開発したアプリ(ナレッジベース)から、Enterprise AI のインターフェース経由でLLMに接続できます。なぜアプリから直接LLMに接続しないのか?いというと、一つは接続先となるLLMは固定ではなくサポートしているものであれば(OpenAI、GoogleBird、etc)共通のインターフェースで接続できます。もう一つは、Enterprise tAIにはエンベディングが含まれているとの事で、いわゆるベクトルデータベースを使ってLLMに対する情報付加が出来るようになります。

既にGeneXus Wiki はGeneXus Enterprise AIを使用しているバージョンにアップデートされています。



AI 系の講演で全般的に共通していたのが、コンセプチュアルな説明が多く、具体的なデモが少なかったです。これは今時点ではテクニカルプレビューの意味合いが強く、具体的な価格やライセンス体系も含めた製品としての出荷は来年以降になるからと思われます。

(具体的な情報は何もないので、この記事を見たからといって、ジェネクサス・ジャパンへ問い合わせるのはお控えください)


AI の次にGeneXus社が力を入れていたのがSuperApp/Mini App でした。これはネイティブモバイルジェネレーター(スマホアプリ)の新機能になるのですが、中国のWeChat、日本ではLineやPayPayをイメージしてもらうと判りやすいです。SuperAppがいわゆる親アプリ(プラットフォームアプリ)で、MiniAppが抜き差し可能な子アプリになります。

またスーパーアップにはプラットフォーマーとしての決済インターフェイスが用意されているので、eコマース的なミニアプリからスーパアプリの決済を使う事も出来ます。デモではイタオ銀行のスーパーアプリ上で、カフェや映画のチケットを購入できるミニアプリが動作していました。

そして、MiniAppを管理するアプリがMini App センターです。ミニアプリのアップロード、申請、承認、公開といった、アプリストアとしてのワークフローを備えた運用支援ツールになっています。



この3つの構成でエコシステムを構築する事ができます。(もちろん、ビジネスモデル・スキームは必要ですが)

ちなみに、独自のミニアプリストアで公開するミニアプリですが、Apple app store 、Google Play store の審査は必要ないのか?とGeneXus社の担当者に聞いてみたところ、それは問題ないとの事でした。コロナ過中にウルグアイではGeneXus社がコロナ対応アプリをいち早くリリースしていましたが、その頃にApple、Google各社に問い合わせていて、問題ないと回答をもらっているそうです。

スーパーアプリに関しては既存のスクラッチアプリにミニアップレンダーというスーパーアップ用のインターフェースを組み込む方法(いわゆるマイグレーション)と、GeneXusで一から開発する方法の二種類を用意しているようです。これにより、速やかな市場展開が出来ます。

という、ことで簡単にと言いながら結構長くなってしまいましたが、4年ぶりのGXインターナショナルミーティングのレポートを終わります。

それぞれ詳細な情報を入手したら記事にしようと思います。

では。


2023年7月25日火曜日

ChatGPT Plugin : 他のプラグインはどうなっているのか?

 前回、ベクトルデータベース検索を使ったChatGPT Pluginを作ってみましたが、思ったようには動作しませんでした。

そこで今回は、他のChatGPT Pluginがどういう動作になっているのか? 検証したいと思います。検証といっても、普通にPluginを使うだけです。前回のブログを見て貰うと判りますが、Pluginを実行した時の挙動(APIに対するリクエストデータとレスポンスデータ)は簡単に見る事が出来るますので、どういう呼び出し方をしていて、どういうデータが返ってくるかを確認できればAPIの仕様が判るという訳です。

1.メルカリ Plugin

こちらはつい先日公開されたメルカリのプラグインです。


ブラグインの挙動はこうなっていました。




試しにもう一つ


プラグインの挙動はこちら


API自体は割と普通なキーワード検索っぽいですね。ChatGPT側が自然言語で処理してくれていますが、入力した内容から検索キーワードを抽出してくれています。APIはあくまでも渡されたパラメータを元にDBで検索を行い、結果を返しているようです。


2.Kakaku.com 旅行・トラベル


プラグインの挙動はこちらです


Kakaku.comもキーワード検索ですね。プロンプトとしては色々と条件を付けてみたつもりでしたが、実際にAPIに渡されたのは場所情報だけでした。(食事の美味しい高級旅館はどこへ行った?)

最近、ChatGPT Pluginがかなり増えている状況ですが、APIの処理としてはこういった普通のキーワード検索が多いのでしょうか?  自分としては何かもうひとひねりしたプラグインが出来ないか? と思いあぐねています。

では。

2023年7月18日火曜日

ChatGPT Plugin : ベクトルデータベースに挑戦 その3

前回の続きです。

作成したAPIをChatGPT Pluginとして使ってみましょう。

プラグインデベロッパーアカウントでは、自分で作成したプラグインをインストール可能です。Plugin storeの画面から「Develop your own plugin」をクリックします。


今回のAPIはサーバーへデプロイはしておらず、ローカルPCで動作していますので「localhost:5003」と入力します。

マニフェストファイルとYamlファイルが正しく認識されるとPluginがインストール可能になります。



早速、使ってみましょう。


質問 : データベースを定義する方法を教えて下さい。GeneXus wikiで調べてください。

回答 : 以下に、GeneXusのデータベース定義に関連する情報を提供します。

1.Commit on Exit property : この記事では、GeneXusが各トランザクションと各手続きに対して提供するプロパティについて説明しています。これは、生成されたプログラムが自動的にCOMMITを実行するかどうかを定義するためのものです。

2.For in command : この記事では、配列やコレクションを走査するためのFor inコマンドについて説明しています。

3.Extended Table : この記事では、Extended Tableという概念について説明しています。Extended Tableは、特定のBase Tableに位置しているときに、複数のテーブルへのアクセスを簡素化するためのものです。

これらの記事は、データベースを定義する方法に関する一般的な情報を提供しますが、具体的な手順や例については、GeneXusのドキュメンテーションやチュートリアルを参照してください。


う~ん、ちょっとイマイチな回答ですね。いまいちというか、全然当たっていないですね。プラグインの挙動を確認してみます。プラグインが動作表示している右端をクリックして展開してみると、リクエストに対してレスポンスは返ってきています。
リクエストの内容もちゃんと英語に翻訳されています。
ただ、レスポンスであるベクトル検索の結果が
・Commit on Exit property
・For in command
・Extended Table
となっていて、ChatGPTの回答はAPIレスポンスをそのまま回答に使っている事が判ります。




他にもいくつか試してみした。





どれもイマイチですね。ベクトル検索の精度が悪くてChatGPTも取得した文章をそのまま表示しているだけですね。
素人がいきなり精度を出せるわけ無いか。。どうやったら精度が上げられるかちょっと考えてみます。
では。







2023年7月12日水曜日

ChatGPT Plugin : ベクトルデータベースに挑戦 その2

前回の続きです。

作成したベクトルデータベース(Cosmos DB)の中身はこんな感じです。


1レコードの内容がまるっとテキストデータでJSON形式で格納しています。「embedding」項目の値として小数値が配列となっています。これが文章をベクトル化した結果です。

では、このデータベースを使って検索するプログラムを作成します。

検索処理ですが、通常のRDBのようにDB側で検索するのでは無く、一旦DBからベクトル値を全レコード分抽出した配列と、質問文章をベクトル化したものを、比較=コサイン類似性(Cosine Similarity)計算します。


以下はデバッグで出力した計算結果の配列値です。データベースには70(文書)レコード登録してあるので計算結果も問合せ文章と70レコードを比較した70個の数値配列になります。
値の大きい方(1に近い方)がベクトルとして同じ方向(=文脈が近い)にあり、小さい方(-1に近い方)がベクトルとして逆方向(=文脈が遠い)にあります。
この計算結果を昇順にソートし、上位から必要なレコードを取得します。

以下、検索処理のPythonコードをChatGPTに解説して貰った内容です。

このPythonコードは、Azure Cosmos DBに保存された文書データを検索するWeb APIを提供します。具体的には、OpenAIのEmbedding APIを使用してクエリと文書のベクトル化を行い、それらのコサイン類似度を計算して最も類似度が高い文書を返す機能を持っています。以下に、コードの主要な部分を段階的に解説します。

  1. 環境変数の設定: .env ファイルから環境変数を読み込み、OpenAI APIキーとAzure Cosmos DBのURLとキーを設定します。
  2. WikiDocumentクラス: このクラスには、テキストを指定したトークン数に分割するsplit_textメソッドと、指定したクエリに最も類似した文書を検索するsearch_documentメソッドが含まれています。
  3. Web APIの定義: Quartとquart_corsを使用してWeb APIを定義します。/gxwiki/search/<string:query>エンドポイントは、指定したクエリに最も類似した文書を検索し、その結果をJSON形式で返します。また、/.well-known/ai-plugin.jsonと/openapi.yamlエンドポイントは、それぞれAIプラグインのマニフェストとOpenAPI仕様を返します。
  4. main関数: この関数では、Azure Cosmos DBから全ての文書を読み込み、それらのベクトルを_docs_vectorsリストに保存します。その後、Webアプリケーションを起動します。
  5. エントリーポイント: ファイルが直接実行された場合、main関数が呼び出されます。


検索処理はChatGPT Pluginsとして呼び出されますので、Webサービスとして動作するように実装しています。PythonのWebフレームワークであるQuartを使用しています。
プログラムを実行するとプロセスとしてリクエストを待機します。


APIが出来上がったら、後は前回と同様にChatGPT Pluginとして使用するのに必要なマニフェストファイルとYamlファイルを準備します。

・ap-plugin.json

・openai.yaml
 英語の文章を元にベクトル化をしていますので、日本語の質問文章ではマッチしません。検索用API側で日本語→英語翻訳をしてもいいのですが、せっかくChatGPT Pluginとして動かすので、ChatGPT側で翻訳を行ってもらうようにdescription項目に「Query string must be English. Could you translate it before search」と入れました。

これでPluginの完成です。

次回は実際に使ってみましょう。
では。

2023年7月5日水曜日

ChatGPT Plugin : ベクトルデータベースに挑戦 その1

 ChatGPTを使う上でモデルが学習していない情報(特に最新情報[2021年9月以降])や特定分野の情報)をどうインプットさせるか? は当初の課題でした。それが(有償ユーザーに限りますが) WebブラウジングやPlugin機能が解放されることでピンポイントで情報を取得する事ができ、ChatGPT上で出来る事が飛躍的に増えました。

私の立場としてはGeneXusの技術情報に関する問合せ(セルフトレーニング)やコーディングなどをChatGPTで実現する事ができるか? というのが直近の目標だったりするのですが、JavaScriptやPythonといった十分にモデルが学習済みの技術であればそれも容易なのですが、いかんせんGeneXusというマイナー技術では、なかなか思う様な結果を得ることが出来ないのが現実です。

という事で、次に考えたのは、GeneXus技術情報に特化したプラグインで、問合せの内容を元に文脈的に近い情報をwikiページから取得しモデルに返すことで、より精度の高い回答をChatGPTが出来ないか? というものでした。

問合せの内容から独自のデータを利用してモデルに検討させるのは、最近ではAzure OpenAI サービスにてAdd your dataという機能があります。まだプレビュー版でありますが、これを使うと例えば自社のドキュメントをインプットしておく事で、とり業務に特化した質問に対する回答を得られることができるというものです。

今後も次々にこういった機能やサービスがリリースされてくるでしょうから、自前で作る事にあまり意味はないのかもしれませんが、エンジニアとしては早期に取り組むという事と、実際の技術的なポイントを押さえておきたくてトライしてみました。

その中で情報収集・検討・トライ&エラーした結果として要約したポイントです。

  • 検索対象となる文書のデータベース化
    • GeneXusの技術情報をデータベース化するので、英語版wikiを対象に考えます。
    • データベースはRDBではなく、以下の理由でベクトルデータベースを使用したいのですが、私もビギナーなのでまずはNoSQLであるAzure Cosmos DBを使用し、ベクトル化は自前で行う事にします。(このあたり、正式なベクトルデータベースではベクトル化機能自体備わっているのか?といった事もよくわかっていません(笑)
    • GeneXusもバージョン18U3からCosmos DBをサポートしてきていますので、今後の技術取得の意味も含めて選択しました。
  • 質問の文脈に沿った検索方法
    • 一般的なデータベース(RDB)ではキーワードを元にした部分一致検索などがありますが、ユーザーがどんな質問をするかわらかないChatGPT上では、文脈的に一致するか? という観点での検索が必要になります。
    • この検索を実現するのがベクトルデータベースです。ベクトルデータベースとは、対象となる文章を元にベクトル計算を行い数値化し、データベースに保存しておきます。
    • 一方、問合せ時の質問文もベクトル計算を行い数値化し、ベクトルデータベースに格納されているベクトル値と比較する事で、文脈的に近しい文書を見つける。というものです。
    • 今回はベクトル値同士をコサイン類似性(Cosine Similarity)計算をしてレーティング値を出し、そのレーティング値の高い値を文脈の近い文章として捉えます。
    • コサイン類似性では値が-1~1の間で表され、
      • 1は同じベクトル(0度)で完全に似ている
      • 0は直交(90度)で似ている・似ていないのどちらも無関係
      • -1は逆向き(180度)で似ていない
    • と判断します。
  • ChatGPTに返すデータの量
    • モデルに精度高く考えさせるには多くのデータを渡す方が良いですが、現在はトークン数に限りがあり、より多くのトークンが利用出来るモデルはその分コストも高くなっています。
    • 長い文章の場合は、モデルに要約させる事も可能ですが、技術的な情報では予約によって切り捨てられてしまうと不都合になる情報もあります。
    • この様にどの程度の量の情報を渡せばコストや制限に引っかからず、且つ、精度が高い処理を行って貰うことが出来るのか? は今すぐ答えが出てくる問題ではありません。
では、実装です。今回はかなりトライ&エラーが必要だと思っていたので、GeneXusではなくPythonを使って開発しました。私自身PythonはChatGPTを使うようになってから勉強し始めた言語です。文法やライブラリの調査、使い方のレクチャー、実行時エラーの原因解析と対処などなど、ChatGPTのお陰で短期で作る事が出来るようになりました。が、まだまだマスタしたというレベルではありません。超ビギナーですが、新しい言語に触れるのは幾つになっても楽しいです。(笑)

まずはデータベースの準備です。AzureでCosmos DBアカウントを作成し、データベース→コンテナと順番に作成します。


次にPythonプログラムです。最初はベクトルデータベースを構築する処理です。wikiサイトからhtmlを取得し、テキストを抜き出し、文章を元にベクトル計算をし、Cosmos DBに保存します。インプットとしてはURLを記載したjsonファイルを用意しました。

Pythonのソースコードを書きますが、超ビギナーのコーディングなので掲載はやめておきます(一部だけ掲載)。代わりにソースコードをChatGTP経由で解説してもらった内容を掲載します。

このPythonコードは、ウェブ上のドキュメントを取得し、それらをAzure Cosmos DBに保存するものです。具体的には、Wikipediaの記事を取得し、それらの記事をOpenAIのAPIを使用してベクトル化し、その結果をAzure Cosmos DBに保存します。以下に、コードの主要な部分を段階的に解説します。
  1. 環境変数の設定: このコードは、.envファイルから環境変数を読み込みます。これにはOpenAIのAPIキーとAzure Cosmos DBのURLとキーが含まれます
  2. WikiDocumentsクラスの定義: このクラスは、Wikipediaのドキュメントを取得し、それらをベクトル化し、結果をJSONファイルに保存するためのメソッドを提供します。
    • split_textメソッド: このメソッドは、テキストを単語に分割し、それらを指定された最大トークン数を超えないようにチャンクに分割します。
    • getWikiDocumentsメソッド: このメソッドは、指定されたURLからWikipediaのドキュメントを取得し、それらのドキュメントをOpenAIのAPIを使用してベクトル化します。結果はJSONファイルに保存されます。
    • compute_hashメソッド: このメソッドは、指定されたURLからハッシュ値を計算します。これは、Cosmos DBに保存する際のパーティションキーとして使用されます。
    • saveCosmosDBメソッド: このメソッドは、JSONファイルからドキュメントを読み込み、それらをAzure Cosmos DBに保存します。
  3. Mainクラスの定義: このクラスは、WikiDocumentsクラスのインスタンスを使用して、ドキュメントの取得と保存のプロセスを制御します。
  4. メインの実行部分: ここでは、WikiDocumentsクラスとMainクラスのインスタンスを作成し、ドキュメントの取得と保存のプロセスを開始します。

これでベクトルデータベース(もどき)の完成です。

続きは次の記事で。では。