MediaWikiAPIPageExtractor (Wandora

java.lang.Object
- org.wandora.application.tools.AbstractWandoraTool
- - org.wandora.application.tools.extractors.AbstractExtractor
  - - org.wandora.application.tools.extractors.mediawikiapi.AbstractMediaWikiAPIExtractor
    - - org.wandora.application.tools.extractors.mediawikiapi.MediaWikiAPIPageExtractor

All Implemented Interfaces:

java.io.Serializable, java.lang.Runnable, BrowserPluginExtractor, DropExtractor, WandoraTool, WandoraToolLogger, Handler, InterruptHandler, TopicMapLogger
```
public class MediaWikiAPIPageExtractor
extends AbstractMediaWikiAPIExtractor
```
Author:

Eero

See Also:

Serialized Form

Field Summary

Fields
Modifier and Type	Field and Description
`private java.lang.String`	`baseURL`
`private java.lang.String[]`	`contentTypes`
`private boolean`	`crawlClasses`
`private WandoraToolLogger`	`logger`
`private int`	`nExtracted`
`private int`	`progress`
`private java.lang.String[]`	`qType`
`private java.lang.String`	`queryURL`

Fields inherited from class org.wandora.application.tools.extractors.mediawikiapi.AbstractMediaWikiAPIExtractor
CONTENT_TYPE_SI, LANG_SI, PAGE_SI, SI_ROOT

Fields inherited from class org.wandora.application.tools.extractors.AbstractExtractor
CUSTOM_EXTRACTOR, DONE_FAILED, DONE_MANY, DONE_ONE, EXACTLY_GIVEN_URLS, FILE_EXTRACTOR, FILE_PATTERN, GIVEN_URLS_AND_ALL_CRAWLED_DOCUMENTS, GIVEN_URLS_AND_CRAWLED_DOCUMENTS_IN_URL_DOMAIN, GIVEN_URLS_AND_LINKED_DOCUMENTS, GIVEN_URLS_AND_URL_BELOW, INFO_WAIT_WHILE_WORKING, LOG_TITLE, POINT_START_URL_TEXT, RAW_EXTRACTOR, SELECT_DIALOG_TITLE, STRING_EXTRACTOR_NOT_SUPPORTED_MESSAGE, URL_EXTRACTOR

Fields inherited from interface org.wandora.application.WandoraToolLogger
CLOSE, EXECUTE, INVISIBLE, VISIBLE, WAIT

Fields inherited from interface org.wandora.application.tools.browserextractors.BrowserPluginExtractor
RETURN_ERROR, RETURN_INFO

Constructor Summary

Constructors
Constructor and Description

MediaWikiAPIPageExtractor(java.lang.String baseURL, java.lang.String[] qType, boolean crawl)

Constructors
Constructor and Description
`MediaWikiAPIPageExtractor(java.lang.String baseURL, java.lang.String[] qType, boolean crawl)`

Method Summary

All Methods Instance Methods Concrete Methods
Modifier and Type	Method and Description
`boolean`	`_extractTopicsFrom(java.io.File f, TopicMap t)`
`boolean`	`_extractTopicsFrom(java.lang.String str, TopicMap t)`
`boolean`	`_extractTopicsFrom(java.net.URL u, TopicMap t)`
`private void`	`continueExtraction(org.wandora.dep.json.JSONObject contObject, TopicMap t)`
`private boolean`	`extractTopicsFromString(java.lang.String str, TopicMap t)`
`private boolean`	`extractTopicsFromURL(java.net.URL u, TopicMap t)`
`private java.lang.String`	`getArticleBody(java.lang.String title)`
`private java.util.List<java.lang.String>`	`getArticleClasses(java.lang.String title)`
`private java.util.HashMap<java.lang.String,java.lang.String>`	`getArticleInfo(java.lang.String title)`
`protected java.lang.String`	`getBaseUrl()`
`java.lang.String[]`	`getContentTypes()` Returns an array of String containing the content-types this `ContentHandler` can process.
`protected java.lang.String`	`getQueryUrl()`
`protected void`	`incrementExtractions()`
`private org.wandora.dep.json.JSONObject`	`parse(org.wandora.dep.json.JSONObject body, TopicMap tm)`
`private void`	`parsePage(org.wandora.dep.json.JSONObject page, TopicMap tm)`
`private void`	`parsePage(java.lang.String title, TopicMap tm)`
`private void`	`printError(org.wandora.dep.json.JSONObject body)`
`private void`	`printWarnings(org.wandora.dep.json.JSONObject body)`
`boolean`	`runInOwnThread()` Whether or not this tool should fork own thread.
`protected void`	`setQueryUrl(java.lang.String u)`
`boolean`	`useURLCrawler()`

Methods inherited from class org.wandora.application.tools.extractors.mediawikiapi.AbstractMediaWikiAPIExtractor
getContentTypeTopic, getLangTopic, getLangTopic, getMediaWikiClass, getOrCreateTopic, getOrCreateTopic, getWandoraClassTopic, makeSubclassOf

Methods inherited from class org.wandora.application.tools.extractors.AbstractExtractor
acceptBrowserExtractRequest, addCrawlerUrl, browserExtractorConsumesPlainText, buildSI, buildSL, clearMasterSubject, createAssociation, createAssociation, createTopic, createTopic, createTopic, createTopic, createTopic, createTopic, createTopic, croppedFilename, croppedFilename, croppedUrlString, croppedUrlString, doBrowserExtract, dropExtract, dropExtract, dropExtract, execute, extractTopicsFrom, extractTopicsFrom, extractTopicsFrom, extractTopicsFrom, extractTopicsFromText, getBrowserExtractorName, getCrawlerMode, getDescription, getExtractorType, getForceContent, getForceFiles, getForceUrls, getGUIText, getGUIText, getIcon, getInterruptsHandled, getMasterSubject, getName, getType, getWandora, handle, handleContent, handleCustomType, handleFiles, handleForcedContent, handleInterrupt, handleStringContent, handleUrls, initializeCustomType, instantDropHandle, makeSubclassOfWandoraClass, setData, setDisplayName, setForceContent, setForceFiles, setForceUrls, setMasterSubject, setMasterSubject, setTopicMap, setupCrawler, setWandora, takeNap, urlEncode, useTempTopicMap

Methods inherited from class org.wandora.application.tools.AbstractWandoraTool
addUndoMarker, addUndoMarker, allowMultipleInvocations, clearAllThreads, clearThreads, clearThreads, clearToolLock, clearToolLock, clearToolLocks, configure, execute, execute, forceStop, forceStop, getContext, getCurrentLogger, getDefaultLogger, getHistory, getLastLogger, getState, getThreads, getThreads, getToolMenuItem, getToolMenuItem, getTopicName, hlog, initialize, interruptAllThreads, interruptThreads, interruptThreads, isConfigurable, isRunning, isRunning, lockLog, log, log, log, log, requiresRefresh, run, setContext, setDefaultLogger, setLogTitle, setProgress, setProgressMax, setState, setToolLogger, singleLog, singleLog, singleLog, solveContextTopicMap, solveNameForTopicMap, writeOptions

Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

Methods inherited from interface org.wandora.application.WandoraTool
configure, execute, execute, getContext, getToolMenuItem, hlog, initialize, isConfigurable, isRunning, log, log, log, log, requiresRefresh, setContext, setToolLogger, writeOptions

Methods inherited from interface org.wandora.application.WandoraToolLogger
forceStop, getHistory, getState, lockLog, setLogTitle, setProgress, setProgressMax, setState

Methods inherited from interface java.lang.Runnable
run

Field Detail

nExtracted
```
private int nExtracted
```

baseURL
```
private java.lang.String baseURL
```

queryURL
```
private java.lang.String queryURL
```

crawlClasses
```
private boolean crawlClasses
```

qType
```
private java.lang.String[] qType
```

progress
```
private int progress
```

logger
```
private WandoraToolLogger logger
```

contentTypes

private final java.lang.String[] contentTypes

Constructor Detail

MediaWikiAPIPageExtractor

MediaWikiAPIPageExtractor(java.lang.String baseURL,
                          java.lang.String[] qType,
                          boolean crawl)

Method Detail

useURLCrawler
```
public boolean useURLCrawler()
```
Overrides:

useURLCrawler in class AbstractExtractor

runInOwnThread
```
public boolean runInOwnThread()
```
Description copied from class: AbstractWandoraTool

Whether or not this tool should fork own thread. If own thread is allowed, the execution of the tool return immediately. If own thread is not allowed the thread entering initial execute method is used. Extending classes should override this method.

Overrides:

runInOwnThread in class AbstractExtractor

Returns:

true if the tool should should be ran in separate thread.

setQueryUrl

protected void setQueryUrl(java.lang.String u)

getBaseUrl

protected java.lang.String getBaseUrl()

getQueryUrl

protected java.lang.String getQueryUrl()

incrementExtractions
```
protected void incrementExtractions()
```

getContentTypes
```
public java.lang.String[] getContentTypes()
```
Description copied from interface: Handler

Returns an array of String containing the content-types this ContentHandler can process.

Specified by:

getContentTypes in interface Handler

Overrides:

getContentTypes in class AbstractExtractor

Returns:

String array representing content types.

_extractTopicsFrom

public boolean _extractTopicsFrom(java.io.File f,
                                  TopicMap t)
                           throws java.lang.Exception

Specified by:: _extractTopicsFrom in class AbstractExtractor
Throws:: java.lang.Exception

_extractTopicsFrom

public boolean _extractTopicsFrom(java.net.URL u,
                                  TopicMap t)
                           throws java.lang.Exception

Specified by:: _extractTopicsFrom in class AbstractExtractor
Throws:: java.lang.Exception

_extractTopicsFrom

public boolean _extractTopicsFrom(java.lang.String str,
                                  TopicMap t)
                           throws java.lang.Exception

Specified by:: _extractTopicsFrom in class AbstractExtractor
Throws:: java.lang.Exception

extractTopicsFromString

private boolean extractTopicsFromString(java.lang.String str,
                                        TopicMap t)

extractTopicsFromURL

private boolean extractTopicsFromURL(java.net.URL u,
                                     TopicMap t)

continueExtraction

private void continueExtraction(org.wandora.dep.json.JSONObject contObject,
                                TopicMap t)
                         throws java.lang.Exception

Throws:: java.lang.Exception

parse

private org.wandora.dep.json.JSONObject parse(org.wandora.dep.json.JSONObject body,
                                              TopicMap tm)
                                       throws org.wandora.dep.json.JSONException,
                                              TopicMapException,
                                              java.io.IOException

Throws:: org.wandora.dep.json.JSONException; TopicMapException; java.io.IOException

parsePage

private void parsePage(org.wandora.dep.json.JSONObject page,
                       TopicMap tm)
                throws org.wandora.dep.json.JSONException,
                       TopicMapException,
                       java.io.IOException

Throws:: org.wandora.dep.json.JSONException; TopicMapException; java.io.IOException

parsePage

private void parsePage(java.lang.String title,
                       TopicMap tm)
                throws org.wandora.dep.json.JSONException,
                       TopicMapException,
                       java.io.IOException

Throws:: org.wandora.dep.json.JSONException; TopicMapException; java.io.IOException

getArticleBody

private java.lang.String getArticleBody(java.lang.String title)
                                 throws java.io.IOException

Throws:: java.io.IOException

getArticleInfo

private java.util.HashMap<java.lang.String,java.lang.String> getArticleInfo(java.lang.String title)
                                                                     throws java.io.IOException

Throws:: java.io.IOException

getArticleClasses

private java.util.List<java.lang.String> getArticleClasses(java.lang.String title)
                                                    throws java.io.IOException

Throws:: java.io.IOException

printError

private void printError(org.wandora.dep.json.JSONObject body)
                 throws org.wandora.dep.json.JSONException

Throws:: org.wandora.dep.json.JSONException

printWarnings

private void printWarnings(org.wandora.dep.json.JSONObject body)
                    throws org.wandora.dep.json.JSONException

Throws:: org.wandora.dep.json.JSONException

Class MediaWikiAPIPageExtractor

Field Summary

Fields inherited from class org.wandora.application.tools.extractors.mediawikiapi.AbstractMediaWikiAPIExtractor

Fields inherited from class org.wandora.application.tools.extractors.AbstractExtractor

Fields inherited from interface org.wandora.application.WandoraToolLogger

Fields inherited from interface org.wandora.application.tools.browserextractors.BrowserPluginExtractor

Constructor Summary

Method Summary

Methods inherited from class org.wandora.application.tools.extractors.mediawikiapi.AbstractMediaWikiAPIExtractor

Methods inherited from class org.wandora.application.tools.extractors.AbstractExtractor

Methods inherited from class org.wandora.application.tools.AbstractWandoraTool

Methods inherited from class java.lang.Object

Methods inherited from interface org.wandora.application.WandoraTool

Methods inherited from interface org.wandora.application.WandoraToolLogger

Methods inherited from interface java.lang.Runnable

Field Detail

nExtracted

baseURL

queryURL

crawlClasses

qType

progress

logger

contentTypes

Constructor Detail

MediaWikiAPIPageExtractor

Method Detail

useURLCrawler

runInOwnThread

setQueryUrl

getBaseUrl

getQueryUrl

incrementExtractions

getContentTypes

_extractTopicsFrom

_extractTopicsFrom

_extractTopicsFrom

extractTopicsFromString

extractTopicsFromURL

continueExtraction

parse

parsePage

parsePage

getArticleBody

getArticleInfo

getArticleClasses

printError

printWarnings