Powerset lance « Engine Comprendre » Pour le contenu de Wikipedia

A+ A-

Après près de deux ans dans la fabrication - et beaucoup de battage médiatique -
Powerset a
enfin déployé un moteur de recherche « langage naturel ». Ce n'est pas un tueur de Google.
Il est à peine un modèle d'affaires en ce moment. Mais au moins c'est quelque chose dans le monde
peut enfin jouer avec, et sous le capot, il y a beaucoup de potentiel.

Au moment où vous lirez ces lignes, le site Powerset aurait changé en un outil
qui vous permet de rechercher
contre matériel dans Wikipedia. Pourquoi vous ne devez utiliser Powerset plutôt que d'utiliser l'outil de recherche propre de Wikipedia ou même Google
mis à chercher uniquement dans Wikipedia
pages? Le terrain Powerset est que vous obtiendrez de meilleurs résultats parce que
La technologie de Powerset a lu
et compris ce que chaque mot de Wikipédia signifie en réalité.

Un moteur Comprendre, pas Recherche en langage naturel

Pour comprendre que plus, je vous demande que vous oubliez que vous jamais entendu « langage naturel »
étant associé à Powerset. Cela ne décrit pas vraiment ce qu'ils font en
par rapport aux moteurs de recherche réguliers.

Pour expliquer, vous devez comprendre que Google et l'autre grande recherche
Les moteurs sont en grande partie stupide.
Ils ne comprennent pas vraiment le contenu sur les pages qu'ils « lisent ». S'ils voient le mot « marcher » dans une phrase, ils ne savent pas si promenade est
être utilisé comme un verbe ou un nom. En termes très généraux, ils ne savent même pas que
mots sont des mots. Les mots sont plus ou moins les motifs - collections de
lettres - et quand quelqu'un
recherches, ils essaient de trouver les pages qui ont ces motifs en eux ou en
liens vers ces pages.

C'est très simplifiée, OK? Les principaux moteurs de recherche ont une certaine débrouillardise, certains
capacité de savoir cette marche est liée à la marche ou que marcher et courir peut-être
Mots similaires. Mais cela est en grande partie fait par devinettes statistique, plutôt
que comprendre ce les mots individuels signifient en fait, en particulier en termes
de leur usage grammatical exacte.

Powerset est différent. Il dit que sa technologie lit et chaque comprend
mot sur une page. Il examine chaque phrase. Il comprend les mots dans chaque
phrase et la façon dont ils liés les uns aux autres. Il fonctionne ce que cette phrase
signifie vraiment, tous les faits qui sont présentés. Cela signifie qu'il sait ce
une page est vraiment.

Au lieu d'une meilleure expression, appeler un « moteur compréhension ». Peut-être que
pas la bonne expression, mais la recherche en langage naturel est pas non plus.
Comprendre les moteurs au moins met en évidence le caractère unique de Powerset - c'est parce que
il fait
comprend les pages sont sur le point - il peut extraire des faits de ces pages, plus
comprendre comment ces faits, ainsi que ces pages, se rapportent les uns aux autres.

Wikipedia Discovery Tool

L'une des principales utilisations de Powerset emploie comme une découverte Wikipedia
ou interroger outil de raffinement. Pour utiliser l'exemple Powerset on m'a donné une séance d'information au cours de la semaine dernière, envisager une
rechercher [viii henry]. Ce qui est une personne intéressée à quand ils effectuent des recherches sur
ce sujet, étant donné Henry a fait beaucoup de choses au cours de son règne?

Au cours de Google, nous obtenons interroger des suggestions de raffinement au fond du
page, comme ceci:


Raffinement Google Recherche

Yahoo


Yahoo Recherche Raffinement

Chez Microsoft


Raffinement Microsoft Query

La plupart d'entre eux sont générés en regardant les relations entre ceux qui ont
cherché un sujet et peut-être parti et fait une autre recherche. Yahoo
a du paquet le plus sophistiqué (voir
Suggestions de recherche sur
Stéroïdes: Yahoo Search Assist), mais il n'a pas encore fait
« Lire » à propos de Henri VIII et lui essayé de regrouper en sous-thèmes, de la manière un être humain
pourrait.

C'est ce que Powerset essaie. Voici ce que vous obtenez dans une recherche de Henry VIII:


Powerset Recherche Raffinement

Notez les onglets en haut, où il reconnaît Henry VIII pourrait se référer à la
personne, l'opéra, le jeu, ou même un drame de télévision. OK, donc pas trop étonnant
quand vous pensez à ce sujet. Mais regarder plus loin dans la région « Factz ». Içi vous pouvez voir
que Powerset, après avoir lu Wikipedia, a compris que Henry VIII
« dissous » des choses comme des monastères ou qu'il « accordés » des choses comme la terre. Et
oui, il « marié » quelques personnes.

Il y a encore plus de faits qui peuvent être trouvés comme ceci:


Powerset Factz

C'est agréable raffinement. Exécution de la liste, vous pouvez numériser rapidement les nombreux
faits qui définissent la vie de Henry. Et dans la liste, avec un clic, vous pouvez percer
en plus sur des sujets et sauter droit à certaines pages de Wikipédia:


Powerset Factz

Voyez comment il y a un lien vers la
Falmouth, Cornouailles
page? Powerset a vu qu'il ya quelque chose de Henry VIII fit construire mentionné sur
cette page, le château de Pendennis. Ce ne sont pas protégés sur la principale
Henry VIII Page,
mais parce que Powerset a lu les deux pages et comprend ce qu'ils font, il
peut relier les faits ensemble.

Overkill maintenant?

En bref, le raffinement est cool. Ce qui est de ne pas aimer à ce sujet? D'une part, il
pourrait être surpuissant. Au cours de la démonstration, Powerset a fait une grosse affaire sur la façon dont Powerset
pourrait générer des informations à travers différentes pages de Wikipedia qui ne sont pas écrites
sur un seul d'entre eux. Par exemple, une recherche de [hulk hogan]
soulevé cette question:


Powerset Factz

Voyez comment ceux qui Hulk Hogan a vaincu sont un décompte détaillé? Il est agréable - mais faire
vous faites confiance vraiment que toutes les défaites ont été capturés? Je ne voudrais pas. je voudrais
probablement aller toujours à la recherche d'une liste officielle qui avait été examiné par un
Humain. De plus, je peux obtenir des listes
comme ça sans grand raffinement. Une recherche
Hulk Hogan
victoires sur Google me amène à ce
agréable
page sur About.com liste ses victoires de championnat du monde.

De plus, alors que Powerset a fait un bon travail de Henry VIII briser
selon Wikipedia, des éditeurs humains de Wikipédia font un travail assez agréable en plein
les premiers paragraphes à la page Henry VIII:

Henry VIII (28 Juin 1491 - 28 Janvier 1547) était Roi d'Angleterre et Seigneur de l' Irlande, par la suite Roi de l' Irlande et au demandeur Royaume de France, de 21 Avril 1509 jusqu'à sa décès. Henry était le deuxième monarque de la Maison de Tudor, succédant à son père, Henry VII.

Henri VIII était une figure importante dans l'histoire de la monarchie anglaise. Bien que dans les premières parties de son règne , il supprima énergiquement la Réforme de la Église anglicane, qui avait été construit depuis la vapeur John Wycliffe du XIVe siècle, il est connu le plus souvent pour son luttes ecclésiastiques avec Rome. Ces luttes , finalement , l'ont conduit à séparant l'Église anglicane de l' autorité romaine, Dissolution des Monastères, et établir le monarque anglais la Chef suprême de l'Eglise d'Angleterre. Bien que certains prétendent , il est devenu Protestant sur son lit de mort, il a plaidé pour la cérémonie et la doctrine catholique tout au long de sa vie; soutien royal de la Réforme anglaise a été laissé à son héritiers, Edward VI et Elizabeth I. Henry a également supervisé l'union légale de Angleterre et Pays de Galles (voir Les lois en Pays de Galles). Actes 1535-1542 Il est noté dans la culture populaire pour être marié six fois.

Je soupçonne que la plupart des gens vont frapper Wikipedia déjà trouver une ouverture
paragraphe comme ça, qui fait un
assez bon travail en les guidant dans leurs sujets d'affiner sur Henry VIII et les désignant
faits.

C'est un problème pour Powerset, qui m'a dit qu'il espère attirer beaucoup de
les utilisateurs de Wikipedia à son propre site, où ils seront éventuellement présentés annonces
à côté du contenu (annonces ne sont pas présents au moment du lancement).

Powerset était à la peine d'expliquer la popularité de Wikipédia est et quel bien
ressource utilisée, il est devenu. D'accord - et beaucoup de ces gens là-bas vent
parce qu'ils ont fait des recherches sur Google. Environ 70 pour cent des utilisateurs de Wikipedia
venez par les moteurs de recherche, selon Powerset lui-même. C'est un public énorme
qui ne va pas être mis en déroute par magie à la place Powerset. Oui, certains savent aller directement
Wikipedia. Sans doute certains de ces utilisateurs entendront de la nouvelle
outil Powerset et aller là-bas. Cependant, il sera
superbe réalisation si ceux-ci sont plus d'une fraction de ceux qui a frappé le site principal Wikipedia.

Article Outlines

Powerset a un autre tour dans sa manche qui pourrait tirer dans le peuple. Pour
une page que vous visitez, il y a une case « Article Outline » qui apparaît à l'intérieur,
comme ça:


Powerset article donne un aperçu

Il est très lisse. Sélectionnez un élément, et vous sautiez à l'endroit dans le
document lié à ce:


Powerset article donne un aperçu

Je pense qu'il est évident que Powerset ajoute une certaine valeur agréable de Wikipedia.
En effet, tout le monde serait probablement intelligent pour aller directement plutôt que
Wikipédia lui-même. Mais comme je l'ai couvert ci-dessus, ce n'est pas ce que je pense arriver.

Dans l' avenir Rechercher sur le site?

Si Powerset ne parvient pas à capter un large public, alors quelle est la voie à suivre pour
il? Un domaine est
fournir une meilleure recherche spécifique au site. La technologie de Powerset peut être appliquée à
un ensemble de documents, pour le rendre plus facile pour les gens à trouver ce qu'ils cherchent
pour en eux. Site recherche spécifique permet à ceux qui la visite d'un web particulier
site pour regarder seulement dans ce site. Ce marché, ainsi que la recherche d'entreprise
(Faisant intranets recherche) ne cesse de croître. Et le public à faire les
types de recherche sont probablement plus enclins à rechercher des options de raffinement et
d'autres outils d'exploration qu'ils sont en effectuant des recherches générales.

Powerset a dit ceci est un marché qui l'intéresse, alors peut-être nous allons le voir
se développer dans ce domaine. Mais pour ceux qui attendent pour produire la richesse-Google, gardez à
l'esprit que de longue date et un lecteur de recherche mature entreprise FAST
vendu pour 1,2 $
milliards cette année. Oui, c'est une énorme quantité d'argent, mais ce n'est pas
le Yahoo allait multiples milliards d'aller, et il est beaucoup moins que ce que Google évalué à.

En parlant de Yahoo, il était le principal candidat dans le passé qui pourrait
acquérir Powerset, en particulier compte tenu des liens étroits entre les entreprises (Powerset
a un certain nombre d'anciens Yahoos sur le personnel). problèmes actuels de GIVEN Yahoo et
état instable, je ne serais pas attendre grand-chose ici.

Est-ce qu'un tie-up avec un acteur majeur comme Google ou Microsoft se produire? Sûr.
En dehors de la recherche de site, la technologie qui permet aux machines de automatiquement
comprendre quels documents texte sont sur le point doit avoir d'autres applications et être
vaut quelque chose. Qu'est-ce que ce sont et combien il vaut la peine est pas claire. Powerset de
été intelligent pour happer de nombreuses licences et brevets autour de la technologie
devrait le rendre attrayant pour un joueur de recherche plus comme Google ou Microsoft
acquérir. Au sein de l'une de ces organisations, je soupçonne des choses plus innovantes
viendrait.

Pour votre information, je l'ai écrit au paragraphe précédent vendredi dernier, avant que les rumeurs (voir
ici sur News.com
et ici
Techmeme) que Microsoft pourrait vouloir acheter est sorti le week-end.
En fait, je commencé à écrire cet article il y a plusieurs mois et que, était
couvrant la façon dont il pourrait être une cible d'acquisition. Il est un mouvement assez évident
attendre l'une des grandes maisons de disques à regarder, et quand j'ai parlé à plusieurs Powerset
il y a plusieurs mois, on m'a donné l'impression que toutes les majors avaient pris un coup d'oeil.

Depuis lors, bien sûr, personne ne l'a acquise - plus la société a
par une gestion
shake-up l'an dernier. Il était déjà sous le feu pour ne pas avoir un produit sur
depuis si longtemps. Ajouter à ces grèves comme un tueur de Google potentiel le fait qu'il faut
Powerset environ un mois pour comprendre 2,5 millions de pages thématiques de Wikipedia. Dans
ce moment-là, beaucoup de ces pages ont changé - donc besoin d'être relue
encore. Powerset est impressionnant, mais avec le web ayant plus de 20 MILLIARDS
changer constamment les pages, ce n'est pas du jour au lendemain arme secrète qui pourrait Microsoft
acheter et utiliser pour prendre la tête de recherche.

En effet, ce que dit Powerset il
a développé - ainsi que des brevets verrouillés jusqu'à la protéger - est surpuissant pour
ce qui est nécessaire aujourd'hui. Il sera plus utile probablement cinq ans, en
façons nous ne sommes pas même envisager. Pour les joueurs de penser à long terme, qui
inclure à la fois Google et Microsoft, bien sûr - il pourrait bien judicieux d'acheter.

D'ailleurs, le lancement Powerset inspirera sans aucun doute l'intérêt dans un autre
« Langage naturel » moteur de recherche, Hakia. Un jour, je veux revenir sur Hakia et
expliquer plus sur la raison pour laquelle je n'aime aussi le terme « langage naturel » appliqué
à elle. En attendant, vous pouvez lire l'excellent article de Vanessa Fox de la dernière
Octobre sur le service,
Réseaux sociaux grâce à la recherche: Hakia vous aide à répondre autres. Et si tu
besoin d'une déflation de battage médiatique de langage naturel, voir
Les Google Challengers:
2008 Edition. Dans la section sur Powerset, je résume une longue diatribe, je l'ai fait sur
l'histoire et de battage de recherche en langage naturel.

Pour discussion à ce sujet, voir Techmeme.


Ads

Partager