GithubHelp home page GithubHelp logo

moongou / automateddatacollectionwithr Goto Github PK

View Code? Open in Web Editor NEW

This project forked from coderlmn/automateddatacollectionwithr

0.0 0.0 0.0 164 KB

《基于 R 语言的自动化数据采集技术》读者讨论区

automateddatacollectionwithr's Introduction

AutomatedDataCollectionWithR

《基于 R 语言的自动化数据采集技术》演示项目及讨论区

参与讨论,请进入 https://github.com/coderLMN/AutomatedDataCollectionWithR/issues

以下是译者序:

译者序

《基于 R 语言的自动化数据采集技术 — 网络抓取和文本挖掘实用指南》这本书是以非计算机专业人士(尤其是社会科学领域的研究者)为目标读者的,但它对于广大开发者也有很好的参考价值。它介绍的思路和方法并不仅仅局限于 R 语言的应用,在很多其他的开发平台上也不难实现。

对于我自己来说,这本书让我对社会科学和信息技术都有了全新的认识,开阔了眼界。大数据技术的应用领域除了搜索、电商、社交网络、垂直应用之外,还可以和很多专业领域结合起来,挖掘出非常有价值的信息。开源社区已经有了支持各种技术需求的现成组件,大大简化了所需的编程工作。可以说,这本书介绍的技术让大数据、网页抓取、机器学习这些貌似高大上和高深莫测的概念变得具体实际了。

我在翻译本书过程中最大的收获与其说是技术上的,不如说是理念上的:学科之间的交叉能够产生如此奇妙的化学反应,让很多我们以前想得到却做不到甚至根本不敢想的事情能够轻松地实现。尤其是现在的大数据时代,自动化数据抓取和文本挖掘技术为各专业领域的研究者提供了前所未有的强大工具,社会科学家们也能像自然科学家们一样通过建模、采集数据、分析统计的过程产生量化的结果,以此来支持他们的分析和结论。

本书的核心内容是自动化数据抓取和分析的方法,R 语言和它的一些组件在其中承担了基础架构的作用。比如书中介绍了通过定期抓取 Twitter 相关推文对奥斯卡奖得主进行预测的案例,我们同样也可以利用微博提供的开放接口做到类似的事情( 请参阅 http://open.weibo.com/wiki/2/search/topics )。利用 R 语言及其众多组件提供的支持,我们可以避开大量的技术细节,专注于我们要研究的主题,真正需要编写的代码其实是相当简单的。

管中窥豹,可见一斑。从这本书里我们还可以看到一个趋势:编程将不再是计算机专业人士的专利,而是一种越来越方便、越来越简单的工具。随着各种编程语言(比如本书用到的 R 语言)及其配套工具的完善,几乎每个人都有机会具备基本的编程能力,就像现在大部分人都能学会开车和使用电脑上网一样。

这本书就反映了上述的趋势。在书中,作者给出了简洁的代码、详细的讲解、以及真实的例子,让我们切切实实地看到了大数据在社会科学领域运用的效果。作者尽可能回避了晦涩的术语和高深的理论,而是给我们提供了非常实用的组件,并探讨了很有趣的一些实际问题。这样的讲解方式,非常有利于我们快速地上手、循序渐进地学习,并且马上就能把学到的技术运用到我们的实际研究项目中去。

最后我还要说几句套话。在翻译的过程中,我尽了最大努力让中文版通顺易懂且忠于原文,让读者在阅读本书的时候能保持情绪稳定,让出版社不后悔和我的这次合作。但是,由于本人水平比较有限,难免会有错误和遗漏之处,望读者不吝指正,我在此先行感谢。另外,我在 GitHub 开辟了一个讨论区:https://github.com/coderLMN/AutomatedDataCollectionWithR/issues ,欢迎读者们来提出自己的疑问和观点并参与讨论。

automateddatacollectionwithr's People

Contributors

coderlmn avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.