FluxML · lorenzoh · Aug 10, 2021 · Jun 6, 2021 · Jun 8, 2021 · Jun 18, 2021
diff --git a/Project.toml b/Project.toml
@@ -4,6 +4,7 @@ authors = ["lorenzoh <[email protected]>"]
 version = "0.2.3"
 
 [deps]
+CategoricalArrays = "324d7699-5711-5eae-9e2f-1d82baa6b597"
 ColorBlendModes = "60508b50-96e1-4007-9d6c-f475c410f16b"
 CoordinateTransformations = "150eb455-5306-5404-9cee-2592286d6298"
 Distributions = "31c24e10-a181-5473-b8eb-7969acd0382f"

diff --git a/src/DataAugmentation.jl b/src/DataAugmentation.jl
@@ -2,6 +2,7 @@ module DataAugmentation
 
 using ColorBlendModes
 using CoordinateTransformations
+using CategoricalArrays
 using Distributions: Sampleable, Uniform, Categorical
 using ImageDraw
 using Images
@@ -28,6 +29,7 @@ include("./sequence.jl")
 include("./items/arrayitem.jl")
 include("./projective/base.jl")
 include("./items/image.jl")
+include("./items/table.jl")
 include("./items/keypoints.jl")
 include("./items/mask.jl")
 include("./projective/compose.jl")
@@ -36,6 +38,7 @@ include("./projective/affine.jl")
 include("./projective/warp.jl")
 include("./oneof.jl")
 include("./preprocessing.jl")
+include("./rowtransforms.jl")
 include("./colortransforms.jl")
 include("testing.jl")
 include("./visualization.jl")
@@ -49,6 +52,7 @@ export Item,
     Sequence,
     Project,
     Image,
+    TabularItem,
     Keypoints,
     Polygon,
     ToEltype,
@@ -88,7 +92,8 @@ export Item,
     onehot,
     showitems,
     showgrid,
-    Bounds
+    Bounds,
+    getcategorypools
 
 
 end # module
diff --git a/src/items/table.jl b/src/items/table.jl
@@ -0,0 +1,4 @@
+struct TabularItem{T} <: DataAugmentation.Item
+	data::T
+	columns
+end
diff --git a/src/rowtransforms.jl b/src/rowtransforms.jl
@@ -0,0 +1,60 @@
+struct NormalizeRow <: DataAugmentation.Transform
+	normstats
+	normcols
+end
-struct NormalizeRow <: DataAugmentation.Transform
-	normstats
-	normcols
-end
+struct NormalizeRow{T, S} <: DataAugmentation.Transform
+	normstats::T
+	normcols::S
+end
-struct NormalizeRow <: DataAugmentation.Transform
-	normstats
-	normcols
-end
+struct NormalizeRow{T, S} <: DataAugmentation.Transform
+	normstats::T
+	normcols::S
+end
+
+struct Categorify <: DataAugmentation.Transform
+	pooldict
+	categorycols
+end
-struct Categorify <: DataAugmentation.Transform
-	pooldict
-	categorycols
-end
+struct Categorify{T, S} <: DataAugmentation.Transform
+	categories::T
+	categorycols::S
+end
-struct Categorify <: DataAugmentation.Transform
-	pooldict
-	categorycols
-end
+struct Categorify{T, S} <: DataAugmentation.Transform
+	categories::T
+	categorycols::S
+end
+
+struct FillMissing <: DataAugmentation.Transform
+	fmvals
+	contcols
+	catcols
+end
-struct FillMissing <: DataAugmentation.Transform
-	fmvals
-	contcols
-	catcols
-end
+struct FillMissing{T, S} <: DataAugmentation.Transform
+	fmvals::T
+	contcols::S
+end
-struct FillMissing <: DataAugmentation.Transform
-	fmvals
-	contcols
-	catcols
-end
+struct FillMissing{T, S} <: DataAugmentation.Transform
+	fmvals::T
+	contcols::S
+end
+
+function DataAugmentation.apply(tfm::FillMissing, item::TabularItem; randstate=nothing)
+	x = (; zip(item.columns, [data for data in item.data])...)
+	for col in tfm.contcols
+		if ismissing(x[col])
+			Setfield.@set! x[col] = tfm.fmvals[col]
+		end
+	end
+	for col in tfm.catcols
+		if ismissing(x[col])
+			Setfield.@set! x[col] = "missing"
+		end
+	end
+	TabularItem(x, item.columns)
+end
-function DataAugmentation.apply(tfm::FillMissing, item::TabularItem; randstate=nothing)
-	x = (; zip(item.columns, [data for data in item.data])...)
-	for col in tfm.contcols
-		if ismissing(x[col])
-			Setfield.@set! x[col] = tfm.fmvals[col]
-		end
-	end
-	for col in tfm.catcols
-		if ismissing(x[col])
-			Setfield.@set! x[col] = "missing"
-		end
-	end
-	TabularItem(x, item.columns)
-end
+function DataAugmentation.apply(tfm::FillMissing, item::TabularItem; randstate=nothing)
+	x = (; zip(item.columns, [data for data in item.data])...)
+	for col in tfm.contcols
+		if ismissing(x[col])
+			Setfield.@set! x[col] = tfm.fmvals[col]
+		end
+	end
+	TabularItem(x, item.columns)
+end
-function DataAugmentation.apply(tfm::FillMissing, item::TabularItem; randstate=nothing)
-	x = (; zip(item.columns, [data for data in item.data])...)
-	for col in tfm.contcols
-		if ismissing(x[col])
-			Setfield.@set! x[col] = tfm.fmvals[col]
-		end
-	end
-	for col in tfm.catcols
-		if ismissing(x[col])
-			Setfield.@set! x[col] = "missing"
-		end
-	end
-	TabularItem(x, item.columns)
-end
+function DataAugmentation.apply(tfm::FillMissing, item::TabularItem; randstate=nothing)
+	x = (; zip(item.columns, [data for data in item.data])...)
+	for col in tfm.contcols
+		if ismissing(x[col])
+			Setfield.@set! x[col] = tfm.fmvals[col]
+		end
+	end
+	TabularItem(x, item.columns)
+end
+
+function DataAugmentation.apply(tfm::NormalizeRow, item::TabularItem; randstate=nothing)
+	x = (; zip(item.columns, [data for data in item.data])...)
+	for col in tfm.normcols
+		colmean, colstd = tfm.normstats[col]
+		Setfield.@set! x[col] = (x[col] - colmean)/colstd
+	end
+	TabularItem(x, item.columns)
+end
+
+function DataAugmentation.apply(tfm::Categorify, item::TabularItem; randstate=nothing)
+	x = (; zip(item.columns, [data for data in item.data])...)
+	for col in tfm.categorycols
+		if ismissing(x[col])
+			Setfield.@set! x[col] = "missing"
+		end
+		Setfield.@set! x[col] = tfm.pooldict[col].invindex[x[col]]
-		if ismissing(x[col])
-			Setfield.@set! x[col] = "missing"
-		end
-		Setfield.@set! x[col] = tfm.pooldict[col].invindex[x[col]]
+		if ismissing(x[col])
+		    Setfield.@set! x[col] = 0
+		else
+		    Setfield.@set! x[col] = findfirst(tfm.categories .== col)
+		end
-		if ismissing(x[col])
-			Setfield.@set! x[col] = "missing"
-		end
-		Setfield.@set! x[col] = tfm.pooldict[col].invindex[x[col]]
+		if ismissing(x[col])
+		    Setfield.@set! x[col] = 0
+		else
+		    Setfield.@set! x[col] = findfirst(tfm.categories .== col)
+		end
+	end
+	TabularItem(x, item.columns)
+end
+
+function getcategorypools(catdict, catcols)
+	pooldict = Dict()
+	for col in catcols
+		catarray = CategoricalArrays.categorical(catdict[col])
+        CategoricalArrays.levels!(catarray, ["missing", CategoricalArrays.levels(catarray)...])
+        pooldict[col] = catarray.pool
+	end
+	pooldict
+end
-function getcategorypools(catdict, catcols)
-	pooldict = Dict()
-	for col in catcols
-		catarray = CategoricalArrays.categorical(catdict[col])
-        CategoricalArrays.levels!(catarray, ["missing", CategoricalArrays.levels(catarray)...])
-        pooldict[col] = catarray.pool
-	end
-	pooldict
-end
-function getcategorypools(catdict, catcols)
-	pooldict = Dict()
-	for col in catcols
-		catarray = CategoricalArrays.categorical(catdict[col])
-        CategoricalArrays.levels!(catarray, ["missing", CategoricalArrays.levels(catarray)...])
-        pooldict[col] = catarray.pool
-	end
-	pooldict
-end