CS4342_Project/AbstractedBestFeatureSelection at master · sdmoran/CS4342_Project · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def doBestFeatureSelection(clf):
    multDf = pd.read_csv(os.path.dirname(os.path.abspath(__file__))+'/data/TrainData_Multiplicative.csv')
    multTraining, multTesting = do.partionData(multDf, .8)
    rfc = RandomForestClassifier(n_estimators=200)
    bestFeatures = fs.getBestFeaturesForHigherOrderTerms(rfc, multTraining, 8, 'accuracy')
    #bestFeatures = list(['alcohol', 'volatile acidity*total sulfur dioxide*density*', 'volatile acidity*chlorides*free sulfur dioxide*pH*', 'fixed acidity*volatile acidity*free sulfur dioxide*pH*sulphates*'])
    print(bestFeatures)

    trainingData = multTraining.loc[:, bestFeatures]
    trainingY = multTraining['label']
    trainingData.insert(loc = len(trainingData.columns),column='label', value=trainingY)

    testingData = multTesting.loc[:, bestFeatures]
    testingY = multTesting['label']
    testingData.insert(loc = len(testingData.columns),column='label', value=testingY)
    print(testingData)
    do.fitTrainingData(rfc, trainingData)
    do.testClassifier(rfc, testingData, "Random Forests")