add normalizer

4 years ago · a01fa866a4
parent 88275aff05
commit a01fa866a4
4 changed files with 167 additions and 5 deletions
--- a/speechx/speechx/frontend/linear_spectrogram.cc
+++ b/speechx/speechx/frontend/linear_spectrogram.cc
@ -89,7 +89,7 @@ bool LinearSpectrogram::ReadFeats(Matrix<BaseFloat>* feats) const {

 // Compute spectrogram feat, return num frames
 // todo: refactor later (SmileGoat)
-int32 LinearSpectrogram::Compute(const vector<float>& wave,
+bool LinearSpectrogram::Compute(const vector<float>& wave,
                                 vector<vector<float>>& feat) {
  int num_samples = wave.size();
  const int& frame_length = opts.frame_opts.WindowSize();
@ -99,7 +99,7 @@ int32 LinearSpectrogram::Compute(const vector<float>& wave,
  const float scale = hanning_window_energy_ * frame_shift;

  if (num_samples < frame_length) {
-          return 0;
+          return true;
  }

  int num_frames = 1 + ((num_samples - frame_length) / frame_shift);
@ -118,7 +118,7 @@ int32 LinearSpectrogram::Compute(const vector<float>& wave,
    v.assign(data.begin(), data.end());
    if (NumpyFft(&v, fft_real, fft_img)) {
      LOG(ERROR)<< i  << " fft compute occurs error, please checkout the input data";
-      return -1;
+      return false;
    }

    feat[i].resize(fft_points / 2 + 1);  // the last dimension is Fs/2 Hz
@ -135,5 +135,5 @@ int32 LinearSpectrogram::Compute(const vector<float>& wave,
      // log added eps=1e-14
      feat[i][j] = std::log(feat[i][j] + 1e-14);
    }
-  return 0;
+  return true;
 }
--- a/speechx/speechx/frontend/linear_spectrogram.h
+++ b/speechx/speechx/frontend/linear_spectrogram.h
@ -28,7 +28,7 @@ class LinearSpectrogram : public FeatureExtractorInterface {
  private: 
    void Hanning(std::vector<kaldi::BaseFloat>& data) const;
    kaldi::int32 Compute(const std::vector<kaldi::BaseFloat>& wave,
-                         std::vector<std::vector<kaldi::BaseFloat>>& feat) const;
+                         std::vector<std::vector<kaldi::BaseFloat>>& feat);
    bool NumpyFft(std::vector<kaldi::BaseFloat>* v,
                  std::vector<kaldi::BaseFloat>* real,
                  std::vector<kaldi::BaseFloat>* img) const;
--- a/speechx/speechx/frontend/normalizer.cc
+++ b/speechx/speechx/frontend/normalizer.cc
@ -0,0 +1,97 @@
+
+#include "frontend/normalizer.h"
+
+DecibelNormalizer::DecibelNormalizer(
+    const DecibelNormalizerOptions& opts,
+    const std::unique_ptr<FeatureExtractorInterface>& pre_extractor) {
+
+}
+                                    
+void DecibelNormalizer::AcceptWavefrom(const kaldi::Vector<kaldi::BaseFloat>& input) {
+
+}
+
+void DecibelNormalizer::Read(kaldi::Vector<kaldi::BaseFloat>* feat) {
+
+}
+
+bool DecibelNormalizer::Compute(const Vector<kaldi::BaseFloat>& input,
+                                kaldi::Vector<kaldi::BaseFloat>* feat) {
+  // calculate db rms
+  float rms_db = 0.0;
+  float mean_square = 0.0;
+  float gain = 0.0;
+  vector<BaseFloat> smaples;
+  samples.resize(input.Size());
+  for (int32 i = 0; i < samples.size(); ++i) {
+    samples[i] = input(i);
+  }
+  
+  // square
+  for (auto &d : samples) {
+    if (_opts.convert_int_float) {
+    d = d * WAVE_FLOAT_NORMALIZATION;
+    }
+    mean_square += d * d;
+  }
+
+  // mean
+  mean_square /= samples.size();
+  rms_db = 10 * std::log10(mean_square);
+  gain = opts.target_db - rms_db;
+
+  if (gain > opts.max_gain_db) {
+    LOG(ERROR) << "Unable to normalize segment to " << opts.target_db << "dB,"
+                << "because the the probable gain have exceeds opts.max_gain_db" 
+                <<  opts.max_gain_db << "dB.";
+    return false;
+  }
+
+  // Note that this is an in-place transformation.
+  for (auto &item : samples) {
+    // python item *= 10.0 ** (gain / 20.0)
+    item *= std::pow(10.0, gain / 20.0);
+  }
+
+  return true;
+}
+
+
+PPNormalizer::PPNormalizer(
+    const PPNormalizerOptions& opts,
+    const std::unique_ptr<FeatureExtractorInterface>& pre_extractor) {
+
+}
+                                    
+void PPNormalizer::AcceptWavefrom(const kaldi::Vector<kaldi::BaseFloat>& input) {
+
+}
+
+void PPNormalizer::Read(kaldi::Vector<kaldi::BaseFloat>* feat) {
+
+}
+
+bool PPNormalizer::Compute(const Vector<kaldi::BaseFloat>& input,
+                           kaldi::Vector<kaldi::BaseFloat>>* feat) {
+   if ((input.Dim() % mean_.Dim()) == 0) {
+        LOG(ERROR) << "CMVN dimension is wrong!";
+        return false;
+   }
+
+    try {
+      int32 size = mean_.Dim();
+      feat->Resize(input.Dim());
+      for (int32 row_idx = 0; row_idx < j; ++row_idx) {
+        int32 base_idx  = row_idx * size;
+        for (int32 idx = 0; idx < mean_.Dim(); ++idx) {
+          (*feat)(base_idx + idx) = (input(base_dix + idx) - mean_(idx))* variance_(idx);
+        }       
+      }
+
+    } catch(const std::exception& e) {
+        std::cerr << e.what() << '\n';
+        return false;
+    }
+
+    return true;
+}
--- a/speechx/speechx/frontend/normalizer.h
+++ b/speechx/speechx/frontend/normalizer.h
@ -0,0 +1,65 @@
+
+#pragma once
+
+#include "frontend/feature_extractor_interface.h"
+
+namespace ppspeech {
+
+
+struct DecibelNormalizerOptions {
+  float target_db;
+  float max_gain_db;
+  DecibelNormalizerOptions() :
+    target_db(-20),
+    max_gain_db(300.0),
+    convert_int_float(false) {}
+
+    void Register(kaldi::OptionsItf* opts) {
+      opts->Register("target-db", &target_db, "target db for db normalization");
+      opts->Register("max-gain-db", &max_gain_db, "max gain db for db normalization");
+      opts->Register("convert-int-float", &convert_int_float, "if convert int samples to float");
+    }
+};
+
+class DecibelNormalizer : public FeatureExtractorInterface {
+  public:
+    explict DecibelNormalizer(const DecibelNormalizerOptions& opts,
+                              const std::unique_ptr<FeatureExtractorInterface>& pre_extractor);
+    virtual void AcceptWavefrom(const kaldi::Vector<kaldi::BaseFloat>& input);
+    virtual void Read(kaldi::Vector<kaldi::BaseFloat>* feat);
+    virtual size_t Dim() const;
+    bool Compute(const kaldi::Vector<kaldi::BaseFloat>& input,
+                 kaldi::Vector<kaldi::BaseFloat>>* feat);
+  private:
+};
+
+struct NormalizerOptions {
+  std::string mean_std_path;
+  NormalizerOptions() :
+    mean_std_path("") {}
+
+  void Register(kaldi::OptionsItf* opts) {
+    opts->Register("mean-std", &mean_std_path, "mean std file");
+  }
+};
+
+// todo refactor later (SmileGoat)
+class PPNormalizer : public FeatureExtractorInterface {
+  public:
+    explicit PPNormalizer(const NormalizerOptions& opts, 
+                          const std::unique_ptr<FeatureExtractorInterface>& pre_extractor);
+    ~PPNormalizer() {}
+    virtual void AcceptWavefrom(const kaldi::Vector<kaldi::BaseFloat>& input);
+    virtual void Read(kaldi::Vector<kaldi::BaseFloat>* feat);
+    virtual size_t Dim() const;
+    bool Compute(const kaldi::Vector<kaldi::BaseFloat>& input,
+                 kaldi::Vector<kaldi::BaseFloat>>& feat);
+
+  private:
+    bool _initialized;
+    kaldi::Vector<float> mean_;
+    kaldi::Vector<float> variance_;
+    NormalizerOptions _opts;
+};
+
+}  // namespace ppspeech