macOS Catalina の NFS 問題を解決する

こんにちは、masm11 です。

弊社では、macOS 上の Vagrant 環境内から、macOS のディレクトリを NFS で mount して、 開発しています。 仮想マシンとしては VirtualBox を使用しています。 この度、私に貸与された mac の macOS を Catalina に上げた ところ、NFS mount ができない、という症状が発生しました。

今回はこの症状を解決するまでをご紹介します。

なお、macOS は Catalina 10.15.4、Vagrant は 2.2.7 です。

症状

vagrant up すると、途中まではうまく処理が進むのですが、 NFS mount するところで、以下のように失敗します。

==> default: Exporting NFS shared folders...
==> default: Preparing to edit /etc/exports. Administrator privileges will be required...
==> default: Mounting NFS shared folders...
The following SSH command responded with a non-zero exit status.
Vagrant assumes that this means the command failed!

mount -o vers=3,udp 192.168.33.1:/System/Volumes/Data/Users/masm/proj/ra/share /vagrant

Stdout from the command:



Stderr from the command:

mount.nfs: requested NFS version or transport protocol is not supported

そして、少し経ってから vagrant ssh でログインし、手動で

sudo mount -o vers=3,udp 192.168.33.1:/System/Volumes/Data/Users/masm/proj/ra/share /vagrant

を実行すると、なんと成功します。

おそらく、どこかで何かがタイムアウトしているのでしょう。

情報を漁ってみる

世の中で既にたくさん使われているはずの Catalina です。そして Vagrant もです。 情報がないはずがありません。

ぐぐってみると、たくさんの情報が見つかりました。一番多かったのがこれです。

  • /etc/exports に書く macOS 側 path は /System/Volumes/Data/... になっていること。

    しかし、最新の Vagrant なら既にそうなっています。上に書いたエラーメッセージでもそうなっていますね。

また、Vagrant の issue をいくつか見たところ、以下の情報が得られました。

  • 既知のディレクトリ (~/Documents みたいな) を export しないこと。

    既知のディレクトリを export する場合は /sbin/nfsd にフルディスクアクセス権限を与える必要があるそうです。

    私の場合は独自のディレクトリですので、該当しません。そもそも権限が問題なら、時間が経ったら 成功する、などということはないはずです。

  • macOS 側 /etc/hostslocalhost をちゃんと書いておくこと。

    普通は書いてあると思います。私も書いてありました。

    ただし、私の場合、showmount -e localhost が何も返さず黙ったまま、という症状もあり、 それは ::1localhost にしてあったのが原因でした。::1 を削除したところ、 この症状はおさまりました。

  • Vagrantfile 内 synced_folder は1つだけにすること。

    複数書くと、/etc/exports の1行に複数個のディレクトリが並ぶ場合があって、その場合に問題が起きていたようです。

    このコメントに例付きで書いてあります。

    最新の Vagrant では大丈夫かもしれませんが、追い切れていません。

    私の場合、synced_folder は1つだけでした。

以上が、情報を漁った結果です。

さらに症状は続く…

しかし、これらの情報では解決に至りませんでした。

仕方ありません、独自の調査を試みてみます。

NFS をやめる

代わりに VirtualBox の sync folder を使うという手があります。

しかし sync folder は遅いのです。NFS が解決しなければ sync folder を 使うという手も考えましたが、遅くて開発に支障が出そうだったので、解決しない 場合は解決しないまま使うことにしました。問題なのは mount する時だけ ですから。

rpcinfo してみる

NFS で問題が起きたら、とりあえず rpcinfo だと思っています。

rpcinfo とは何でしょうか? 使う前に少し説明してみます。

普通、サービスにはポート番号が割り当てられていますね。smtp であれば 25番、 http であれば 80番です。しかし、ポート番号は 16bit であり、1~65535 しかなく、 しかもその中はざっくりと範囲に用途が決まっています。well-known ポートであったり、 エフェメラルポートであったり、NAT に使うものであったり、よくわからないサービスが 独自に割り当てて使ってしまうものであったりします。つまり、65535個って結構たくさん あるように見えて、割り当てられる番号はその極一部なのです。有限なのです。 使うかどうかも判らないようなサービスにポート番号を固定で割り当てたくはないのです。

すると、当然、「じゃぁ動的に割り当てよっか?」という発想が生まれます。つまり、 もっと広い空間の「プログラム番号」「プログラム名」を用意し、使われていないポート番号 から動的に割り当て、「プログラム番号」→「ポート番号」の表を管理しておくのです。 こういった機構を portmap などと呼んでいます。

rpcinfo -p 192.168.33.1 を実行すると、192.168.33.1 のマシンの中のその表を管理 しているプロセスから、その一覧を取得することができます。

試してみましょう。

yuukinombp:~ % rpcinfo -p 192.168.33.1 | grep nfs
    100003    2   udp   2049  nfs
    100003    3   udp   2049  nfs
    100003    2   tcp   2049  nfs
    100003    3   tcp   2049  nfs

100003 はプログラム番号、2 や 3 はプログラムのバージョン、 udp や tcp は使用するプロトコル、 2049 はポート番号、nfs はプログラム名です。つまり、nfs の vers=2 の UDP 版は ポート 2049 を使用する、と読みます。

192.168.33.1 の nfs に UDP でアクセスしたいクライアントは、 一旦 192.168.33.1 の portmap にリクエストを投げ、 nfs の vers=2 の UDP が 2049 であることがわかったら、 改めて 2049/udp に nfs のリクエストを投げる、 ということになります。

ただし、この仕組みは広くいろんなサービスに使われているわけではありません。 結局、NFS や NIS くらいでしか使われなかったように記憶しています。

さて、話を戻します。

NFS mount できる時とできない時で差がありました。できない時には mountd がありません。例をお見せします。

yuukinombp:~ % rpcinfo -p 192.168.33.1 | grep -E 'nfs|mountd'
    100003    2   udp   2049  nfs
    100003    3   udp   2049  nfs
    100003    2   tcp   2049  nfs
    100003    3   tcp   2049  nfs
yuukinombp:~ % rpcinfo -p 192.168.33.1 | grep -E 'nfs|mountd'
    100003    2   udp   2049  nfs
    100003    3   udp   2049  nfs
    100003    2   tcp   2049  nfs
    100003    3   tcp   2049  nfs
    100005    1   udp    632  mountd
    100005    3   udp    632  mountd
    100005    1   tcp    991  mountd
    100005    3   tcp    991  mountd
yuukinombp:~ %

上側が mount できない時、下側が mount できる時です。

たまたまかもしれません。もう少しタイミングをしっかり確認してみましょう。

macOS 側で以下を実行します。

while :; do rpcinfo -p 192.168.33.1 | grep -E 'nfs|mountd'; sleep 1; done

別の端末で、vagrant ssh して以下を実行します。

while ! sudo mount -o vers=3,udp 192.168.33.1:/System/Volumes/Data/Users/masm/proj/ra/share /vagrant; do sleep 1; done

ようするに、rpcinfo を1秒おきに実行しながら、mount も1秒おきにやってみる、ということです。

少し時間が経つと、両方同時に変化がありました。 rpcinfo は mountd を出力するようになりましたし、mount も完了しました。 タイミング的には1秒未満の差です。関連してそう、と思って良いでしょう。

私もどのプログラムがどういった役割をしているのか、それほど把握しているわけでは ないのですが、mountd がいなければ mount はできないのでしょう。

しかし、何故そんなことになるのかはさっぱり原因がつかめません。

log を見る

困って更にぐぐっていたある日、syslog を見る方法を見つけました。

その名も log コマンド。

log stream --style=syslog

とすれば、syslog っぽく整形されたログがどんどんリアルタイムで出力されていきます。

これです! これが欲しかったんです! これさえあれば…

nfs に関するメッセージを探してみたところ、ありました!

2020-04-18 01:37:34.795213+0900  localhost nfsd[7277]: couldn't register NFS/TCP service.

これですね。

couldn't register は、portmap の表に登録できない、という意味なのでしょう、おそらく。 そして、NFS/TCP と書いてありますね。ならば、TCP を無効にしてみましょう。

/etc/nfs.conf に以下のように書きます。

nfs.server.tcp = 0

これで vagrant up しなおします。

==> default: Exporting NFS shared folders...
==> default: Preparing to edit /etc/exports. Administrator privileges will be required...
Password:
==> default: Mounting NFS shared folders...
==> default: Mounting shared folders...
    default: /tmp/vagrant-chef/783542ad0dccc700ff72bcae0833b125/cookbooks => /Users/masm/proj/ra/cookbooks
==> default: Machine already provisioned. Run `vagrant provision` or use the `--provision`
==> default: flag to force provisioning. Provisioners marked to run always will still run.

いけました! めでたく mount できました。

根本原因 (何故 TCP 版が登録できないのか) はわかりませんが、これでひとまず解決です。

考慮点

これでは TCP 版 NFS が使えません。が、Vagrant が UDP を指定しちゃっているので、 TCP を無効にしても影響はないでしょう。

ただ、今後、docker を使うなどで TCP での NFS を使いたくなった場合には、改めて 困るかもしれません。

まとめ

NFS トラブルの解決策が見つからなかったため、自力で解決してしまいました。 ただ、ぐぐって情報を集めても、同様の症状はほとんど見当たりませんし、 たまにあっても解決していませんでした。少数派なのでしょうね。

それにしても、最近、どの OS も syslog をバイナリ化してしまうので、困ります。 テキストファイルなら、テキストファイルを扱えるコマンドは無数にありますから、 好みの方法で使えます。しかしバイナリ化されていると、専用コマンドの使い方を 覚えて、一旦テキスト化してやる必要があります。 テキストでいいじゃん… とは思うのですが、バイナリにもそれなりのメリットが あるのでしょうね。

後日談

と、ここまで書ききった後で、後日談が生まれました。

社内で「ESET をバージョンアップしたら NFS mount できなくなった!」 「NFS mount できない時は ESET ファイアウォールを一旦無効にしてます!」 という声があり、どうやら ESET が影響しているということが判りました。

パーソナルファイアウォールのログを確認したところ、ターゲットのポートが 111 なのは予想通りでしたが、ソースの IP アドレスが :: となっていました。 IPv6 です。 しかし :: をルールの IP/IPv6アドレスに入力してもルールが作成できません。 代わりに ::0 と入力すると作成できました。

まとめると、以下のルールを作成することで、NFS mount できるようになりました。

  • 名前: RPC/NFS 等、適当なもの
  • すべてのアプリケーション: ON
  • アクション: 許可
  • 方向: 両方
  • プロトコル: TCP
  • ポート: ローカル
  • ローカルポート: 111
  • 宛先: IPアドレス
  • IP/IPv6 アドレス: ::0

私の ESET は ESET Cyber Security Pro 6.8.300.0 です。

nfs.conf に手を加えるか、パーソナルファイアウォールに設定するか、 どちらかお好みの方法で良いと思います。

ではまた!

Ruby で backtrace を取得する

こんにちは、masm11 です。

Ruby で、「このコードのここに来た時、どこからどう呼ばれてきたのか知りたい!」ということは ありませんか? よくあると思います。 おそらく最近の IDE なら、問題なく、いつでも見られるのでしょう、きっと。 しかし私はそういった便利な IDE を使っておらず、基本いわゆる printf デバッグです。 こういう場合、自前でなんとか取得する方法が必要です。

今回は、その方法と、それに関連した話題をご紹介します。

Ruby で取得する方法

みなさんは、例外が発生すると、その例外から backtrace を取得できることは ご存知だと思います。そこで、この方法を使います。

begin
  raise 'dummy'
rescue => e
  puts e.backtrace.join("\n")
end

こんな感じですね。例外を投げて、即 rescue します。e.backtrace には backtrace が格納されています。これで backtrace を puts することができます。

luna:~ % ruby test.rb
test.rb:5:in `main'
test.rb:11:in `<main>'
luna:~ %  

Java の場合と Ruby の場合の違い

ついでに Java の場合を見て見ます。Java の場合は少し違います。

Exception ex = new Exception("dummy");
ex.printStackTrace();

これだけです。例外を作るだけで良く、投げる必要はありません。

luna:~ % java test      
java.lang.Exception: dummy
        at test.sub(test.java:3)
        at test.main(test.java:7)
luna:~ % 

ちなみに、Ruby で投げずにやってみると以下のようになります。

e = StandardError.new('dummy')
puts e.backtrace.join("\n")
luna:~ % ruby test.rb
Traceback (most recent call last):
        1: from test.rb:8:in `<main>'
test.rb:5:in `main': undefined method `join' for nil:NilClass (NoMethodError)
luna:~ % 

backtrace がまだ nil なんですね。やはり投げる必要があるようです。

まとめ

今回は簡単に、Ruby と Java での backtrace 取得方法の違いをご紹介してみました。

IDE が便利なのだろうということは解っていますが、 私の手や頭が馴染む気がしないため、今だに Emacs を使いつつ printfデバッグを続けています。 しかも TAGS すら使わず、grep です。 この辺はもう老害と言われても仕方ないですね。

ではまた!

Terminator が起動しない原因を探る

こんにちは、最近趣味でいろんなものをデバッグばかりしている気がする masm11 です。 先日は scp の問題でしたね。

blog.ingage.jp

今回問題だったのは、ターミナルエミュレータ (端末) である Terminator です。

私はデスクトップ環境にボタンを配置し、そのボタンをクリックすると Terminator が 起動するように設定しています。しかし、デスクトップ環境起動後、一度目のボタン クリックは問題ないのに、二度目以降は無反応なのです。これを調べてみました。

調査開始

とりあえず調べるのは標準エラー出力です。以下のエラーが発生していました。

Traceback (most recent call last):
  File "/usr/bin/terminator", line 114, in <module>
    TERMINATOR = Terminator()
  File "/usr/lib/python2.7/site-packages/terminatorlib/terminator.py", line 72, in __init__
    self.prepare_attributes()
  File "/usr/lib/python2.7/site-packages/terminatorlib/terminator.py", line 97, in prepare_attributes
    self.pid_cwd = get_pid_cwd()
  File "/usr/lib/python2.7/site-packages/terminatorlib/cwd.py", line 42, in get_pid_cwd
    system = platform.system()
  File "/usr/lib/python2.7/platform.py", line 1303, in system
    return uname()[0]
  File "/usr/lib/python2.7/platform.py", line 1270, in uname
    processor = _syscmd_uname('-p','')
  File "/usr/lib/python2.7/platform.py", line 1005, in _syscmd_uname
    rc = f.close()
IOError: [Errno 10] 子プロセスがありません

そもそも Terminator は Python 2.7 で書かれているのですね。

例外を見たところ、何故なのかはよくわかりませんが、platform.system() を使って 環境がどんなシステムなのかを取得しているようです。 platform.system() のその奥では uname -p を実行して、パイプ経由で 出力を取得しているのでしょう。その後に子プロセスの終了を待とうとして 例外が発生しているのでしょう。このくらいの情報がこの例外メッセージから得られます。

では、何故子プロセスを作っているにも関わらず、「子プロセスがありません」という エラーが発生するのでしょうか?

プロセスの扱い方

ここで Linux のプロセスの扱い方についておさらいをしましょう。

別プロセスでプログラムを実行するには、以下のようにします。

  1. fork() で子プロセスを作る
  2. 子プロセスでは exec() でプログラムを実行する
  3. 親プロセスでは wait() で子プロセスの終了を待つ (その返り値として、子プロセスが正常に終了したのかどうかが得られる)

親プロセスが wait() しなかった場合、子プロセスが終了しても看取ってくれる プロセスがいないため、子プロセスはゾンビとなります。ゾンビは ps コマンドで見ると defunct と表示されます。 ゾンビを大量に作ってしまうと、カーネルのプロセステーブルが溢れてしまい、 プロセスがそれ以上作れなくなってしまいます。

かと言って、ただ wait() で待っていると、親プロセスは他の処理が何もできません。 それでいいならいいのですが、それでは困ることもよくあります。 そういう場合の回避策がいくつか用意されています。その一つが、SIGCHLD と呼ばれるシグナルです。

  • SIGCHLD をデフォルトのまま何も設定しなければ、普通に wait() する必要が あります。
  • SIGCHLD にハンドラを設定すると、子プロセスが終了した時に SIGCHLD が発生 し、指定のハンドラが実行されます。その時に wait() してあげます。
  • SIGCHLD を無視するように設定すると、子プロセスが終了した時に、ゾンビに ならず、勝手に消滅します。

SIGCHLD 無視って、便利そうですよね。ただ、勝手に消滅するということは、 wait() できないということです。正常終了したのかどうか、判断することが できません。

さて、おさらいはこのくらいにしておきます。

解決編

私はこの症状に1ヶ月程前に遭遇し、Python 自身を適当にいじってエラーにならないように 無理矢理回避して、そのまま忘れていました。最近、Python がアップデートされたことで いじった部分が元に戻り、再び遭遇してしまったので、もう一度調査してみたわけです。

1ヶ月前には SIGCHLD の存在を忘れていましたが、今回の調査で思い出しました。 そうです、デスクトップ環境が SIGCHLD を無視する設定にしていたのです。

問題が起きるまでの流れは以下のようになります。

  1. デスクトップ環境を起動する。この状態では SIGCHLD はデフォルト
  2. ボタンをクリックする
  3. デスクトップ環境内で fork が実行される (この時、SIGCHLD のデフォルト設定が引き継がれる)
  4. 子プロセスでは Terminator が実行される (この時は問題なく成功する)
  5. 親プロセスでは、wait() したくないし、終了コードも別に要らないので、 SIGCHLD を無視する設定にする
  6. もう一度ボタンをクリックする
  7. デスクトップ環境内で fork が実行される (この時、SIGCHLD の無視設定が引き継がれる)
  8. 子プロセスでは Terminator が実行される

二度目に子プロセスで Terminator が実行された時、そのプロセスは SIGCHLD を 無視する設定になっているので、子プロセスを作って uname -p を実行した後、 その子プロセスはすぐに消滅していたのです。

どういうことか、簡単に図にしてみました (図中の番号と上に書いた項目の番号は無関係です)。

f:id:masm11:20200327161353p:plain

これで、「一度目は成功するのに二度目以降は失敗する」という超不可解な現象が 説明できました。

では、どう修正するのが良いでしょうか? 私の答えは、

  • 子プロセスでは、SIGCHLD をデフォルト設定に戻した上で Terminator が実行される

とすることです。これで Terminator が正常に wait() することができます。

まとめ

以上、プロセスの扱い方を含め、調査開始から解決までご紹介しました。

私が使っているデスクトップ環境は同種のソフトウェアの中でもかなりの新参者です。 ですので、全然枯れておらず、いろんなバグに遭遇します。 難しい症状を解決できると、それはもう何とも言えない達成感が得られます。 なかなかに楽しめます。

ではまた!!

@johtani さんと弊社サービスの Elasticsearch について話しました(実装編2)

前回のエントリでは、検索アルゴリズムとしては単純な、でも弊社のサービスにはマッチしている N-gram を採用しているということをお伝えしました 。また Elasticsearch ではどういう設定しているかもお伝えしました。

検索結果のハイライト(highlighting)

今回のエントリはハイライト(highlighting)についてです。 弊社サービスの Re:lation では前述のとおり検索機能があり、検索結果は本文に直接ハイライトをかけてます。

いわゆる Google のようなページ検索・文書検索の場合は、キーワード検索をかけたあと、「文書(ページ)へのリンク」と合わせて「キーワードにマッチした部分およびその前後のテキスト(snippet)」が検索結果として表示されます。その snippet 内のマッチしたワードがハイライトされてるというわけです。

当然、Elasticsearch にもその機能はあります。しかしRe:lationの場合は、Gmail やメールソフトでの検索をイメージしてもわかるとおり、検索結果ページがあるわけではなく、メール一覧に検索にひっかかったメールが表示され、本文を開いた際に検索キーワードがハイライトされていてほしいため、Elasticsearch の機能が使えないのです。

Re:lation での実装

ここはゴリゴリにクライアントサイドで実装しています。 つまり本文内(HTMLドキュメント内)の検索キーワードを探して <span class="search-highlight"></span> で囲むという処理を書いているのです。

この方法で基本的には何の問題もありません。

ですが、問題がおこることもあります。

まず問題のないケースを考えてみます。

<div>
インゲージ永田です。<br>
いつもお世話になっております。<br>
<br>
この度はかくがくしかじか・・。<br>
..
</div>

というメールにに「お世話」で検索した際は、以下のようになります。

<div>
インゲージ永田です。<br>
いつも<span class="search-highlight">お世話</span>になっております。<br>
<br>
この度はかくがくしかじか・・。<br>
..
</div>

問題ありません。しかし。

<div>
インゲージ永田です。<br>
いつも<b></b>世話になっております。<br>
<br>
この度はかくがくしかじか・・。<br>
..
</div>

極端な例ですが、こんな場合にうまくHTML上でキーワードを見つけられずハイライトに失敗します。

これは今でも残っている課題です。

もし解決方法をご存知の方がいらっしゃいましたらお声をかけてくださればと思います。

複数行 UPDATE で発生するデッドロックを回避する

こんにちは、masm11 です。

今回は、RDBMS で複数行の UPDATE すると割と簡単に起きるデッドロックを回避する方法を探ります。 Rails を用い、RDBMS としては PostgreSQL を使います。

準備

まずは、Rails のプロジェクトを作ります。

rails new proj --skip-bundle
cd proj
sed -i -e 's/sqlite3/pg/g' Gemfile    # sqlite3 を pg に書き換え
bundle install --path=vendor/bundle

PostgreSQL にも DB とユーザを作成します。

createdb -U postgres proj
createuser -U postgres proj

config/database.yml は以下のように設定しました。

default: &default
  adapter: postgresql
  user: proj
  pool: <%= ENV.fetch("RAILS_MAX_THREADS") { 5 } %>
  timeout: 5000

development:
  <<: *default
  database: proj

では、モデルを作ります。

bin/rails g model SampleTable col1   

マイグレーション時にテスト用データも作成してしまいます。

class CreateSampleTables < ActiveRecord::Migration[5.2]
  def change
    create_table :sample_tables do |t|
      t.string :col1

      t.timestamps
    end
    SampleTable.create!([ { col1: '123' }, { col1: '456' } ])
  end
end

マイグレーションします。

bin/rails db:migrate

DB 上のデータを確認してみましょう。

luna:proj % psql -U proj -c 'select * from sample_tables' proj
 id | col1 |         created_at         |         updated_at         
----+------+----------------------------+----------------------------
  1 | 123  | 2020-03-11 07:31:53.594273 | 2020-03-11 07:31:53.594273
  2 | 456  | 2020-03-11 07:31:53.596021 | 2020-03-11 07:31:53.596021
(2 行)

luna:proj % 

ちゃんとできていますね。

デッドロックさせる

さて、次にタスクを作成します。

lib/tasks/sample_task.rb を以下のように作成しました。

class Tasks::SampleTask

  def self.execute

    loop do
      SampleTable.update_all({col1: 'foo'})
      $stdout.print '.'
    end

  end

end

これを読み込ませるため、config/application.rb に以下の設定を追加しました。

    config.autoload_paths += ["#{config.root}/lib"]

実行します。

luna:proj % bin/rails runner Tasks::SampleTask.execute
..............................................................

ここまでは動いていますね。

ではこれを3枚の端末で同時実行します。

/home/masm/t/proj/vendor/bundle/ruby/2.7.0/gems/activerecord-5.2.4.1/lib/active_record/connection_adapters/postgresql_adapter.rb:611:in `exec_params': PG::TRDeadlockDetected: ERROR:  deadlock detected (ActiveRecord::Deadlocked)
DETAIL:  Process 875364 waits for ShareLock on transaction 178082; blocked by process 875263.
Process 875263 waits for ShareLock on transaction 178081; blocked by process 875364.
HINT:  See server log for query details.
CONTEXT:  while rechecking updated tuple (8,3) in relation "sample_tables"
: UPDATE "sample_tables" SET "col1" = 'foo'

起きました。デッドロックです。

SQL としては、上記にあるように、

UPDATE "sample_tables" SET "col1" = 'foo'

を実行しているだけです。

これは、id が 1の行と2の行を、順不同で書き換えているためです。

  • 1 をロックして書き換えた後に 2を書き換えるためにロックしようとしているプロセス
  • 2 をロックして書き換えた後に 1を書き換えるためにロックしようとしているプロセス

両者が互いに相手を待ってしまうのです。

解決策

これを回避するには、書き換え順序を保証してやる必要があります。 例えば id 順にするのが良いでしょう。

しかし、

      SampleTable.order(:id).update_all({col1: 'foo'})

これでは、

UPDATE "sample_tables" SET "col1" = 'foo' WHERE "sample_tables"."id" IN (SELECT "sample_tables"."id" FROM "sample_tables" ORDER BY "sample_tables"."id" ASC)

となり、SELECT は id 順になるものの、結局 UPDATE 自体は順不同になってしまいます。

SQL としては、

UPDATE "sample_tables" SET "col1" = 'foo' ORDER BY "id" ASC

のようになって欲しいところです。ですが、MySQL では UPDATE に ORDER BY が指定できるそうですが、 PostgreSQL では使えません。

      SampleTable.transaction do
        a = SampleTable.lock.order(:id).update_all({col1: 'foo'})
      end

これだと

BEGIN
UPDATE "sample_tables" SET "col1" = 'foo' WHERE "sample_tables"."id" IN (SELECT "sample_tables"."id" FROM "sample_tables" ORDER BY "sample_tables"."id" ASC)
COMMIT

となってしまいます。.lock が効いていません。サブクエリに FOR UPDATE が付くかと思ったのですが。

      SampleTable.transaction do
        a = SampleTable.lock.order(:id)
        a.pluck(:id)
        a.update_all({col1: 'foo'})
      end

こうすると、SQL は以下のようになります。

BEGIN
SELECT "sample_tables"."id" FROM "sample_tables" ORDER BY "sample_tables"."id" ASC FOR UPDATE
UPDATE "sample_tables" SET "col1" = 'foo' WHERE "sample_tables"."id" IN (SELECT "sample_tables"."id" FROM "sample_tables" ORDER BY "sample_tables"."id" ASC)
COMMIT

id 順にロックして、ロックし終わった後に UPDATE するので、これなら問題ありません。

まとめ

結果として、「ここまでするか?」と思えるようなものになってしまいましたが、PostgreSQL が UPDATE に ORDER BY が使えず、Rails も update_all が悲観的ロックに対応していない現状では、仕方ないのかもしれません。

ではまた!

2進数で循環小数してみる

こんにちは、masm11 です。

時々数学で遊んでみたくなりませんか? というわけで、今回は数学と戯れてみたいと思います。循環小数です。とは言え、ただ実証してみるだけですので、気楽にお付き合いいただければと思います。

循環小数とは

まず、循環小数とは何でしょうか?

0.123123123\cdots

見たまんま、循環している小数のことですね。

おそらく「\cdots」という書き方が曖昧で数学者の気に食わないのでしょう、これは以下のように書きます。

0.\dot{1}2\dot{3}

1 と 3 の上に点を付けて、「以下、1~3 の部分の繰り返しですよー」という意味です。正確です。

では、これを分数で表現してみます。

実は、

\displaystyle 0.\dot{1}2\dot{3} = \frac{123}{999}

なのです。

もちろん、0.123123\cdots の場合に限りません。

\displaystyle 0.\dot{6}78\dot{9} = \frac{6789}{9999}

です。循環している部分を分子に書き、同じ桁数だけ 9 を分母に並べるのです。

ここまでは、もしかすると、「あ、高校の時にやった」という方もいらっしゃるかもしれません。

0.1 を2進数で正確に表現する

「そんなことできるの?w」 いえいえ、上記のように、循環小数を正確に表現できるのですから、できるかもしれません。

ここからは、10進数か2進数かを数値の右下に書きます。10_{10}10 のことで、100_24 のことです。

では行きましょう。

\displaystyle
0.1 _ {10}
= \frac{1 _ {10}}{10 _ {10}}
= \frac{1 _ {2}}{1010 _ {2}}

ここまでは分数で2進数表記にしただけです。

10進数で分母を 999 の形にすればいいということは、2進数でも 111 の形にすればいいのかもしれません(*1)。

\displaystyle
= \frac{1_2}{101_2}\frac{1_2}{10_2}

101_25 _ {10} ですね。これを 111\cdots_2 の形にするにはどうすればいいでしょうか? 分母分子に何かを掛けましょう。5 _ {10}, 10 _ {10}, 15 _ {10}, ... あ、15 _ {10}1111_2 ですね。では 3 _ {10} を掛けることにします。

\displaystyle
= \frac{11_2}{1111_2}\frac{1_2}{10_2}
= \frac{0011_2}{1111_2}\frac{1_2}{10_2}

最後の = は、0 を補っただけです。

さて、仮説 (*1) が正しいなら、

\displaystyle
= 0.\dot{0}01\dot{1}_2\frac{1_2}{10_2}

です。最後の分数は、2 _ {10} で割ってるだけなので、

\displaystyle
= 0.0\dot{0}01\dot{1}_2

となります。

さて、この値が10進数でいくつなのか、Ruby でコードを書いて確認してみました。

sig = 0.25
sum = 0

32.times do |i|
  mod = i % 4
  sum += sig if [2, 3].include? mod
  puts sum

  sig /= 2
end

2進数の一桁ずつ、1 なら sum に加えて、0 なら加えない、それだけのコードです。 結果は以下のようになりました。

0
0
0.0625
0.09375
0.09375
0.09375
0.09765625
0.099609375
0.099609375
0.099609375
0.099853515625
0.0999755859375
0.0999755859375
0.0999755859375
0.0999908447265625
0.09999847412109375
0.09999847412109375
0.09999847412109375
0.09999942779541016
0.09999990463256836
0.09999990463256836
0.09999990463256836
0.09999996423721313
0.09999999403953552
0.09999999403953552
0.09999999403953552
0.09999999776482582
0.09999999962747097
0.09999999962747097
0.09999999962747097
0.09999999986030161
0.09999999997671694

0.1 _ {10} に限りなく近くなっていますね。

0.1 の場合の実証としてはここまでです。

\displaystyle
0.0\dot{0}01\dot{1}_2

これで、おそらく正確に表現できたのでは、と思います。

一休み

2進数の小数が出てきたので、ついでに説明してみますと、

\displaystyle
0.0\dot{0}01\dot{1}_2
= 1.1001100\cdots _ 2 \times 2 _ {10} ^{-4 _ {10}}

と、小数点より上が 1 になるように調整して、小数点より上を取り除き、1001100\cdots _ 2 を浮動小数点の仮数部、-4 _ {10} を指数部と呼びます (ただし、wikipedia によると、他にも方式があるようです)。

0.01 の場合

さて、0.1 を2進数で表現した結果はご存知の方も多かったのではないでしょうか。もう一つくらいやってみましょうか。0.01 です。

\displaystyle
0.01_{10}
= \frac{1 _ {10}}{100 _ {10}}
= \frac{1 _ {16}}{64 _ {16}}
= \frac{1_2}{1100100_2}
= \frac{1_2}{11001_2}\frac{1_2}{100_2}

0.1 の場合と同様にここまで変形しました。 11001_225 _ {10} です。これを何倍かして 2 ^N-1 にしたいのです。

32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32768, 65536

ここまでは頭に思い浮かべながら、違うことが想像できました。16bit 世代にはここらへんが限界です。この先は覚えていません。素直に Ruby の力を借りましょう。

n = 2

loop do
  break if (n - 1) % 25 == 0
  n *= 2
end

puts n
puts (n - 1) / 25

出てきた答えは、

1048576
41943

これは、1M (メガ) ですね。これだけは最近ようやく覚えました。2 ^{20} です。 そして、上の出力結果の通り、2 ^{20}-125 \times 41943 だそうです。

では、分母分子を 41943 _ {10} 倍しましょう。41943 _ {10} = 1010001111010111_2 なので、


\begin{aligned}
\frac{1_2}{11001_2}\frac{1_2}{100_2}
&= \frac{1010001111010111_2}{11111111111111111111_2}\frac{1_2}{100_2} \\
&= \frac{00001010001111010111_2}{11111111111111111111_2}\frac{1_2}{100_2} \\
&= 0.\dot{0}000101000111101011\dot{1}_2\frac{1_2}{100_2} \\
&= 0.00\dot{0}000101000111101011\dot{1}_2
\end{aligned}

これを 0.1 の場合と同様に Ruby のプログラムで検証します。

0
0
0
0
0.0078125
0.0078125
0.009765625
0.009765625
0.009765625
0.009765625
0.0098876953125
0.00994873046875
0.009979248046875
0.0099945068359375
0.0099945068359375
0.009998321533203125
0.009998321533203125
0.009999275207519531
0.009999752044677734
0.009999990463256836
0.009999990463256836
0.009999990463256836
0.009999990463256836
0.009999990463256836
0.009999997913837433
0.009999997913837433
0.009999999776482582
0.009999999776482582
0.009999999776482582
0.009999999776482582
0.009999999892897904
0.009999999951105565
0.009999999980209395
0.00999999999476131
0.00999999999476131
0.00999999999839929
0.00999999999839929
0.009999999999308784
0.009999999999763531
0.009999999999990905
0.009999999999990905
0.009999999999990905
0.009999999999990905
0.009999999999990905
0.00999999999999801
0.00999999999999801
0.009999999999999787
0.009999999999999787

綺麗に 0.01 に近づいてますね!

まとめ

0.01 ともなると、桁数が多くて、結局、途中の計算も検証も全て Ruby でやってしまいました。

なお、今回のこの記事では、理論的な裏付けなしに仮説 (*1) をでっち上げて使っています。 もし本気の用途に使われる際にはご注意ください。

ではまた!

@johtani さんと弊社サービスの Elasticsearch について話しました(実装編1)

前回のエントリで、弊社サービス Re:lation が Elasticsearch をどういう感じで使っているのかを、主にインフラにまつわる部分を中心に書きました。

blog.ingage.jp

今回は実装に関わる部分を書いてみたいと思います。

前回の記事も含めて今回の記事につきましても、誤っている箇所がありましたら是非ご指摘ください。

形態素解析かN-gramか?

リリース当初は、日本語検索なんだから、 kuromoji っしょ、と思い、 kuromoji を使うことにしました。 kuromoji は形態素解析器です。ドキュメントの本文も、検索キーワードも形態素にわけて検索します(厳密に言えば analyzer の設定次第なんでしょうが)。

しかし問題がおこりました。

「大阪大学」というキーワードで検索すると、「大阪」で検索した結果や「大学」で検索した結果も含まれてしまうのです。メールボックスを検索する上であまりうれしくはありません。当然スコアが高い順に表示したら「大阪大学」で検索したものが上にくると思いますが、感覚的にもご理解いただけると思いますが、メールの検索ではスコア順ではなく最近のメールから表示してほしいです。また、自分のメールボックスを検索する場合は完全一致がうれしいだろうと思います。RDBMSで言うところの LIKE 検索がしたいのです。

そこで N-gram です。N-gram そのものの説明は割愛します。 最低2文字以上で検索するのであれば bi-gram (2-gram) でもいいのですが、1文字で検索したいことはあります。「橘さん」からのメールはとりあえず「橘」で検索したくなるでしょう。Tokenizer は以下のように設定しています。

            tokenizer: {
              message_ngram_tokenizer: {
                type:        "ngram",
                min_gram:    1,
                max_gram:    2,
                token_chars: [ "letter", "digit", "punctuation", "symbol" ]
              }
            }

N-gram を使うメリットとしては、

  • LIKE 検索が実現できる
  • 未知語については考えなくていい
  • kuromoji と違って elasticsearch に内包されている

があり、

デメリットとしては、

  • インデックスサイズが大きくなる
  • 類義語検索やあいまい検索ができない

があげられると思います。

実は kuromoji を使った場合も EXTENDED という、未知語は uni-gram (1-gram) に分割するという形態素解析とN-gramのハイブリッドのようなモードがあります。 これは当時試してはみましたが、詳しくは忘れましたが思うように検索できないことがあり断念しました。おそらく上述の「大阪大学」のような未知語ではないワードが分割され検索されてしまったのだと思います。

今回のエントリはここまで。