R による XML の CSV 化
R を使って XML の内容 (特定の要素のみ) を CSV ファイルへ出力してみました。
- R 3.0.1
サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20130922/
CSV 化の対象 XML は下記で、VALUE 要素の属性とテキストノード値を CSV 出力する事にします。
対象 XML ファイル data.xml
<?xml version="1.0" encoding="UTF-8"?> <GET_STATS_DATA> <STATISTICAL_DATA> <DATA_INF> <VALUE tab="20" cat01="10" cat02="0010" cat03="020" time="2013000000">15</VALUE> <VALUE tab="20" cat01="20" cat02="0010" cat03="020" time="2013000000">27</VALUE> <VALUE tab="20" cat01="30" cat02="0010" cat03="020" time="2013000000">36</VALUE> <VALUE tab="20" cat01="40" cat02="0010" cat03="020" time="2013000000">66</VALUE> <VALUE tab="20" cat01="50" cat02="0010" cat03="020" time="2013000000">47</VALUE> </DATA_INF> </STATISTICAL_DATA> </GET_STATS_DATA>
かなり簡略化してますが、次世代統計利用システム API で取得したデータがこのような構造になっていました。
XML パッケージのインストール
まずは R に XML パッケージをインストールしておきます。
packages.install("XML")
XML のパース関数
XML を DOM へパースする関数は下記のような種類があります。
一見どれを使えばよいか分からなくなってしまいそうですが、xmlInternalTreeParse
・xmlNativeTreeParse
・xmlParse
は xmlTreeParse
で useInternalNodes を TRUE に指定した場合と同じです。 (つまり xmlTreeParse が処理の本体で、残りは useInternalNodes のデフォルト値を TRUE に変えただけ)
関数 | useInternalNodes パラメータのデフォルト値 |
---|---|
xmlTreeParse | FALSE |
xmlInternalTreeParse | TRUE |
xmlNativeTreeParse | TRUE |
xmlParse | TRUE |
ここで、useInternalNodes を TRUE に指定すると xpathApply
や getNodeSet
のような XPath 式を使う関数を使える C レベルの XML ノードが戻り値で返ってきます。
ちなみに、SAX を処理する関数は xmlEventParse
です。
1. データフレーム化して CSV 出力
まずは、下記のような手順でデータフレームを作って CSV 出力してみました。
- (1) xmlParse で DOM へパース
- (2) getNodeSet で XPath 式を使って VALUE 要素のリストを取得
- (3) sapply で属性やテキストノード値を個々にベクトル化 (xmlGetAttr で属性値を取得、xmlValue でテキストノード値を取得)
- (4) data.frame で (3) をデータフレーム化
- (5) write.csv で (4) の内容を CSV ファイルへ出力
なお、テキストノード値は strtoi
で integer へ変換しています。
sample.R
library(XML) doc <- xmlParse("data.xml") items <- getNodeSet(doc, "//VALUE") tab <- sapply(items, function(x) xmlGetAttr(x, "tab")) cat01 <- sapply(items, function(x) xmlGetAttr(x, "cat01")) cat02 <- sapply(items, function(x) xmlGetAttr(x, "cat02")) cat03 <- sapply(items, function(x) xmlGetAttr(x, "cat03")) time <- sapply(items, function(x) xmlGetAttr(x, "time")) value <- sapply(items, function(x) strtoi(xmlValue(x))) df <- data.frame(tab, cat01, cat02, cat03, time, value, stringsAsFactors = FALSE) write.csv(df, file = "data.csv", row.names = FALSE)
なお、write.csv
で row.names = FALSE としていますが、row.names = TRUE のままでは行番号の列が出力されてしまうのでご注意ください。
実行例
> R CMD BATCH sample.R
出力結果は下記の通りです。 integer に変換した value 列は " で囲まれずに出力されています。
出力結果 data.csv
"tab","cat01","cat02","cat03","time","value" "20","10","0010","020","2013000000",15 "20","20","0010","020","2013000000",27 "20","30","0010","020","2013000000",36 "20","40","0010","020","2013000000",66 "20","50","0010","020","2013000000",47
2. 行列を CSV 出力
次は、データフレームを使わずに sapply
で行列を作って CSV 出力してみました。
なお、下記のように sapply
した際の結果は tab や cat01 等が行となってしまうので(行と列が逆)、t
で転置行列化して CSV 出力しています。
ちなみに、このサンプルでは strtoi
は無意味なので使っていません。
sample2.R
library(XML) doc <- xmlParse("data.xml") items <- getNodeSet(doc, "//VALUE") d <- sapply(items, function(x) list( tab = xmlGetAttr(x, "tab"), cat01 = xmlGetAttr(x, "cat01"), cat02 = xmlGetAttr(x, "cat02"), cat03 = xmlGetAttr(x, "cat03"), time = xmlGetAttr(x, "time"), value = xmlValue(x) )) write.csv(t(d), file = "data2.csv", row.names = FALSE)
実行例
> R CMD BATCH sample2.R
出力結果は下記の通りです。
出力結果 data2.csv
"tab","cat01","cat02","cat03","time","value" 20,10,0010,020,2013000000,15 20,20,0010,020,2013000000,27 20,30,0010,020,2013000000,36 20,40,0010,020,2013000000,66 20,50,0010,020,2013000000,47
3. SAX で CSV 出力
最後に SAX で CSV 出力してみました。
VALUE 要素のテキストノードを処理するために .state
の値を制御フラグとして使っています。
また、write.csv
は使わずに cat
を使ってファイル出力しました。
sample3.R
library(XML) f <- file("data3.csv", "w") cat('"tab","cat01","cat02","cat03","time","value"\n', file = f, append = TRUE) # VALUE 要素の属性を処理 procValueNode <- function(name, attrs, .state) { if (name == "VALUE") { cat(attrs[1], attrs[2], attrs[3], attrs[4], attrs[5], "", file = f, sep = ",", append = TRUE) # procValueText で処理させるために .state を TRUE に変更 .state = TRUE } .state } # VALUE 要素のテキストノードを処理 procValueText <- function(content, .state) { if (.state) { cat(content, "\n", file = f, sep = "", append = TRUE) } # .state を FALSE とするために FALSE を返す FALSE } xmlEventParse("data.xml", handlers = list( startElement = procValueNode, text = procValueText ), state = FALSE) close(f)
実行例
> R CMD BATCH sample3.R
出力結果は 2. と同じです。
出力結果 data3.csv
"tab","cat01","cat02","cat03","time","value" 20,10,0010,020,2013000000,15 20,20,0010,020,2013000000,27 20,30,0010,020,2013000000,36 20,40,0010,020,2013000000,66 20,50,0010,020,2013000000,47
処理時間の比較
10万行の CSV を出力するようなデータを処理した場合の処理時間は概ね下記のようになりました。比較のために Groovy で XmlSlurper や StAX を使った場合も試してみました。
タイプ | スクリプト | 処理時間 |
---|---|---|
1. データフレーム化して csv 出力 | sample.R | 40秒 |
2. 行列を CSV 出力 | sample2.R | 40秒 |
3. SAX で CSV 出力 | sample3.R | 14秒 |
Groovy で XmlSlurper 利用 | sample_xmlslurper.groovy | 12秒 |
Groovy で StAX 利用 | sample_stax.groovy | 6秒 |
R の中ではやはり SAX を用いた方が高速でしたが、普通に Groovy で処理した方が速かったので、今回のようなケースを R で処理する必然性は低いかもしれません。
なお、使用したGroovy スクリプトは下記の通りです。
sample_xmlslurper.groovy
def doc = new XmlSlurper().parse(new File(args[0])) println '"tab","cat01","cat02","cat03","time","value"' doc.STATISTICAL_DATA.DATA_INF.VALUE.each { println "${it.@tab},${it.@cat01},${it.@cat02},${it.@cat03},${it.@time},${it.text()}" }
sample_stax.groovy
import javax.xml.stream.* def factory = XMLInputFactory.newInstance() def xr = factory.createXMLStreamReader(new File(args[0]).newReader("UTF-8")) def procValueNode = { stream -> if (stream.name.localPart == 'VALUE') { def items = (0..<stream.attributeCount).collect { stream.getAttributeValue(it) } items << stream.elementText println items.join(',') } } println '"tab","cat01","cat02","cat03","time","value"' while(xr.hasNext()) { switch (xr.eventType) { case XMLStreamConstants.START_ELEMENT: procValueNode(xr) break } xr.next() } xr.close()