R による XML の CSV 化 - なんとなくな Developer のメモ

R を使って XML の内容（特定の要素のみ）を CSV ファイルへ出力してみました。

R 3.0.1

サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20130922/

CSV 化の対象 XML は下記で、VALUE 要素の属性とテキストノード値を CSV 出力する事にします。

対象 XML ファイル data.xml

<?xml version="1.0" encoding="UTF-8"?>
<GET_STATS_DATA>
  <STATISTICAL_DATA>
    <DATA_INF>
      <VALUE tab="20" cat01="10" cat02="0010" cat03="020" time="2013000000">15</VALUE>
      <VALUE tab="20" cat01="20" cat02="0010" cat03="020" time="2013000000">27</VALUE>
      <VALUE tab="20" cat01="30" cat02="0010" cat03="020" time="2013000000">36</VALUE>
      <VALUE tab="20" cat01="40" cat02="0010" cat03="020" time="2013000000">66</VALUE>
      <VALUE tab="20" cat01="50" cat02="0010" cat03="020" time="2013000000">47</VALUE>
    </DATA_INF>
  </STATISTICAL_DATA>
</GET_STATS_DATA>

かなり簡略化してますが、次世代統計利用システム API で取得したデータがこのような構造になっていました。

XML パッケージのインストール

まずは R に XML パッケージをインストールしておきます。

packages.install("XML")

XML のパース関数

XML を DOM へパースする関数は下記のような種類があります。

一見どれを使えばよいか分からなくなってしまいそうですが、xmlInternalTreeParse・xmlNativeTreeParse・xmlParse は xmlTreeParse で useInternalNodes を TRUE に指定した場合と同じです。（つまり xmlTreeParse が処理の本体で、残りは useInternalNodes のデフォルト値を TRUE に変えただけ）

関数	useInternalNodes パラメータのデフォルト値
xmlTreeParse	FALSE
xmlInternalTreeParse	TRUE
xmlNativeTreeParse	TRUE
xmlParse	TRUE

ここで、useInternalNodes を TRUE に指定すると xpathApply や getNodeSet のような XPath 式を使う関数を使える C レベルの XML ノードが戻り値で返ってきます。

ちなみに、SAX を処理する関数は xmlEventParse です。

1. データフレーム化して CSV 出力

まずは、下記のような手順でデータフレームを作って CSV 出力してみました。

(1) xmlParse で DOM へパース
(2) getNodeSet で XPath 式を使って VALUE 要素のリストを取得
(3) sapply で属性やテキストノード値を個々にベクトル化（xmlGetAttr で属性値を取得、xmlValue でテキストノード値を取得）
(4) data.frame で (3) をデータフレーム化
(5) write.csv で (4) の内容を CSV ファイルへ出力

なお、テキストノード値は strtoi で integer へ変換しています。

sample.R

library(XML)

doc <- xmlParse("data.xml")
items <- getNodeSet(doc, "//VALUE")

tab <- sapply(items, function(x) xmlGetAttr(x, "tab"))
cat01 <- sapply(items, function(x) xmlGetAttr(x, "cat01"))
cat02 <- sapply(items, function(x) xmlGetAttr(x, "cat02"))
cat03 <- sapply(items, function(x) xmlGetAttr(x, "cat03"))
time <- sapply(items, function(x) xmlGetAttr(x, "time"))
value <- sapply(items, function(x) strtoi(xmlValue(x)))

df <- data.frame(tab, cat01, cat02, cat03, time, value, stringsAsFactors = FALSE)

write.csv(df, file = "data.csv", row.names = FALSE)

なお、write.csv で row.names = FALSE としていますが、row.names = TRUE のままでは行番号の列が出力されてしまうのでご注意ください。

実行例

> R CMD BATCH sample.R

出力結果は下記の通りです。 integer に変換した value 列は " で囲まれずに出力されています。

出力結果 data.csv

"tab","cat01","cat02","cat03","time","value"
"20","10","0010","020","2013000000",15
"20","20","0010","020","2013000000",27
"20","30","0010","020","2013000000",36
"20","40","0010","020","2013000000",66
"20","50","0010","020","2013000000",47

2. 行列を CSV 出力

次は、データフレームを使わずに sapply で行列を作って CSV 出力してみました。

なお、下記のように sapply した際の結果は tab や cat01 等が行となってしまうので（行と列が逆）、t で転置行列化して CSV 出力しています。

ちなみに、このサンプルでは strtoi は無意味なので使っていません。

sample2.R

library(XML)

doc <- xmlParse("data.xml")
items <- getNodeSet(doc, "//VALUE")

d <- sapply(items, function(x) list(
    tab = xmlGetAttr(x, "tab"),
    cat01 = xmlGetAttr(x, "cat01"),
    cat02 = xmlGetAttr(x, "cat02"),
    cat03 = xmlGetAttr(x, "cat03"),
    time = xmlGetAttr(x, "time"),
    value = xmlValue(x)
))

write.csv(t(d), file = "data2.csv", row.names = FALSE)

実行例

> R CMD BATCH sample2.R

出力結果は下記の通りです。

出力結果 data2.csv

"tab","cat01","cat02","cat03","time","value"
20,10,0010,020,2013000000,15
20,20,0010,020,2013000000,27
20,30,0010,020,2013000000,36
20,40,0010,020,2013000000,66
20,50,0010,020,2013000000,47

3. SAX で CSV 出力

最後に SAX で CSV 出力してみました。 VALUE 要素のテキストノードを処理するために .state の値を制御フラグとして使っています。

また、write.csv は使わずに cat を使ってファイル出力しました。

sample3.R

library(XML)

f <- file("data3.csv", "w")

cat('"tab","cat01","cat02","cat03","time","value"\n', file = f, append = TRUE)

# VALUE 要素の属性を処理
procValueNode <- function(name, attrs, .state) {
    if (name == "VALUE") {
        cat(attrs[1], attrs[2], attrs[3], attrs[4], attrs[5], "", file = f, sep = ",", append = TRUE)
        # procValueText で処理させるために .state を TRUE に変更
        .state = TRUE
    }
    .state
}

# VALUE 要素のテキストノードを処理
procValueText <- function(content, .state) {
    if (.state) {
        cat(content, "\n", file = f, sep = "", append = TRUE)
    }
    # .state を FALSE とするために FALSE を返す
    FALSE
}

xmlEventParse("data.xml", handlers = list(
    startElement = procValueNode,
    text = procValueText
), state = FALSE)

close(f)

実行例

> R CMD BATCH sample3.R

出力結果は 2. と同じです。

出力結果 data3.csv

"tab","cat01","cat02","cat03","time","value"
20,10,0010,020,2013000000,15
20,20,0010,020,2013000000,27
20,30,0010,020,2013000000,36
20,40,0010,020,2013000000,66
20,50,0010,020,2013000000,47

処理時間の比較

10万行の CSV を出力するようなデータを処理した場合の処理時間は概ね下記のようになりました。比較のために Groovy で XmlSlurper や StAX を使った場合も試してみました。

タイプ	スクリプト	処理時間
1. データフレーム化して csv 出力	sample.R	40秒
2. 行列を CSV 出力	sample2.R	40秒
3. SAX で CSV 出力	sample3.R	14秒
Groovy で XmlSlurper 利用	sample_xmlslurper.groovy	12秒
Groovy で StAX 利用	sample_stax.groovy	6秒

R の中ではやはり SAX を用いた方が高速でしたが、普通に Groovy で処理した方が速かったので、今回のようなケースを R で処理する必然性は低いかもしれません。

なお、使用したGroovy スクリプトは下記の通りです。

sample_xmlslurper.groovy

def doc = new XmlSlurper().parse(new File(args[0]))

println '"tab","cat01","cat02","cat03","time","value"'

doc.STATISTICAL_DATA.DATA_INF.VALUE.each {
    println "${it.@tab},${it.@cat01},${it.@cat02},${it.@cat03},${it.@time},${it.text()}"
}

sample_stax.groovy

import javax.xml.stream.*

def factory = XMLInputFactory.newInstance()
def xr = factory.createXMLStreamReader(new File(args[0]).newReader("UTF-8"))

def procValueNode = { stream ->
    if (stream.name.localPart == 'VALUE') {
        def items = (0..<stream.attributeCount).collect {
            stream.getAttributeValue(it)
        }
        items << stream.elementText

        println items.join(',')
    }
}

println '"tab","cat01","cat02","cat03","time","value"'

while(xr.hasNext()) {
    switch (xr.eventType) {
        case XMLStreamConstants.START_ELEMENT:
            procValueNode(xr)
            break
    }
    xr.next()
}

xr.close()