太陽がまぶしかったから

C'etait a cause du soleil.

プログラミング

青空文庫の形態素解析データから tf-idf を計量して江戸川乱歩連想クイズを生成する

青空文庫の形態素解析データを作りたい 例えば『お好み焼きの戦前史 第二版』においても過去文献類をスキャンしたり、ネット上の文献をダウンロードすることで作成した電子テキストデータ群を解析することで料理方法の初出や普及の過程を明らかにしており、…

Python と MeCab でオライリー出版の EPUB 電子書籍を日本語形態素解析する

O'Reilly の電子書籍をテキストマイニング 上記の環境を整えたかった理由のひとつとして電子書籍のテキストマイニングがある。 Amazon Kindle や 楽天 Kobo などの電子書籍データは暗号化されているため正当な方法で抽出することができないが、オライリー出…

mecab-python3 で ipadic-neologd を利用して固有名詞を含んだ日本語の計量テキスト分析をする Docker を構築

Pythonで計量テキスト分析する環境を構築 蔵書やWebニュースなどの計量テキスト分析をするために、テキストマイニングのための環境を作成しているのだけど、自然言語処理においては形態素解析が必要となる。形態素解析とはテキストの品詞分類を行なって分か…

SQL得意おじさんはデータサイエンティストではない

SQL 得意おじさんとデータサイエンティスト これまでの仕事の経歴として、大規模データを効率的に集計・整形したり、BIツールのためのETL基盤を構築するような案件に多く関わってきた。なので「ビッグデータの専門家」という盛った紹介をうけることもあるの…

簡易難読化のためにJavaScriptでシーザー暗号(日本語対応)を実装する

シーザー暗号化/復号化ツール(日本語対応) /* シーザーー暗号化 */ function caesar(val, key) { console.log(val); val = encodeURIComponent(val); var result = ""; for (var i = 0; i シーザー暗号による簡易難読化スクリプト

Google Docsのスプレッドシートで多言語対訳表が簡単に作れるよ

対訳表を作るのが面倒 システム設計をする時に、データベース名や変数名や表示名などを決めるのが面倒です。一般的には英字文字列で作るのですが、ローマ字で「kokyaku」とか付けるのはダサいし、いちいち辞書を引いていくのも面倒です。 多言語対応のために…

プライベートプロジェクトのために久々にプログラミングをしてみる

photo by Ian Wilson プログラミングのスキルが錆びついてる 大学生の頃はよくプログラミングをしていて、自作のゲームでちょっとした賞を頂いたこともありました。その後、一応は情報通信業界に入ったものの、自分ではプログラミング出来ない状態が続いてフ…